MÈTODES
INICI ~ OBJECTIU ~ INTRODUCCIÓ ~ MATERIALS ~ MÈTODES ~ EXPLICACIÓ DETALLADA DEL SCRIPT ~ RESULTATS ~ CONCLUSIÓ ~ REFERÈNCIES ~ AUTORES ~






MÈTODES



Vam començar per intentar consensuar les anotacions de gens que codifiquen per proteïna, obtingudes de diferents fonts, i que es troben dins un conjunt de regions del genoma humà que en total fa un 1% d'aquest.

Aquestes regions son les definides pel projecte ENCODE , que vam anomenar ENCODE.txt que provenien del fitxer:

/disc8/genomes/H.sapiens/golden_path_200307/database/encodeRegions.txt

tal i com està enregistrat de les anotacions de UCSC , dels fitxers de la base de dades d'anotacions de la versió del genoma humà del Juliol del 2003.

El format de l'ENCODE.txt era el següent:

         chr1	148374642	148874642	ENr231

chr10 54828415 55328415 ENr114 ...

on la primera columna corresponia al cromosoma, la segona al començament de la regió,la tercera al final de la regió, i la quarta a un identificador d'aquesta regió.

Conjuntament vam treballar amb les anotacions de gens de RefSeq, Ensembl, genscan, i geneid, que respectivament vam trobar en aquests fitxers:


/disc8/genomes/H.sapiens/golden_path_200307/database/refGene.txt

/disc8/genomes/H.sapiens/golden_path_200307/database/ensGene.txt

/disc8/genomes/H.sapiens/golden_path_200307/database/genscan.txt

/disc8/genomes/H.sapiens/golden_path_200307/database/geneid.txt

El format golden_path dels anteriors fitxers era el següent:

 
  • RefSeq: NM_014188 chr1 - 1428455 1461406 1428847 1461339 5

    1428455,1430650,1431644,1451554,1461259, 1428949,1430769,1431784,1451698,1461406,

  • Ensembl: ENST00000326347 chr1 - 25000 25357 25000 25357 2

    25000,25139, 25037,25357,

  • Genscan: NT_011387.6 chr20 + 298788 329279 298788 329279 6

    298788,299911,301670,311652,325281,328853, 298855,300084,301891,311722,325476,329279,

  • Geneid: chr1_18.1 chr1 - 1052992 1055565 1052992 1055565 6

    1052995,1053141,1053379,1054075,1055100,1055420, 1053063,1053270,1053576,1054142,1055223,1055565,

on la primera columna corresponia al nom del gen, la segona al cromosoma, la tercera a l'strand, la quarta a la posició cromosòmica el començament de trancripció, la cinquena a la posició cromosòmica del final de trancripció, la sisena a la posició cromosòmica del començament de la regió codificant, la setena a la posició cromosòmica del final de la regió codificant, la vuitena al nombre d'exons, la novena a les posicions cromosòmiques del començament dels exons (separades per comes) i la desena a les posicions cromosòmiques del final dels exons (separades per comes).

Aquests anotacions les vam dividir en diferents fitxers de text, cadascun amb un cromosoma diferent de les quatre bases de dades citades anteriorment.

Per a més informació link explicació detallada del SCRIPT.

Perquè s'entengui millor el nostre treball, farem una breu explicació de les quatre base de dades de què partim:

Ensembl és una base de dades que es basa en la unió del projecte entre EMBL-EBI i l'Institut Sanger per desenvolupar un sistema software que produeix i manté automàticamment l'anotació dels genomes dels metazoous (anotació de gens reals).

RefSeq és una base de dades que ens proporciona un sistema integrat, no-redundant de seqüències que incloeu DNA, RNA i productes genòmics de la proteïna. S'utilitza per l'anotació funcional de projectes de genomes seqüenciats.

Geneid és un programa de predicció de gens amb seqüències genòmiques anònimes dissenyades mitjançant una estructura jeràrquica. Va ser creat pel Sr. Guigó, el 1.992, al laboratori d'investigació de Bioinformàtica de l'Institut Municipal d'Investigació Mèdica.

  • Avantatges:
    Capacitat d'identificar la presència de múltiples gens.
  • Desavantatges:
    Incapacitat de predir ausència de gens.
    És específic d'organisme.
  • Genscan és un programa de predicció de gens que modula l'estructura genòmica de les seqüències utilitzant els models ocults de Markov (HMM). Usa diferents models de senyals per dissenyar diferents unitats funcionals, entre els quals hi ha la matriu de pesos (WMM) on a cada posició té la seva pròpia distribució específica, per senyals de poliadenilació, d'inici i final de traducció, i promotors; o bé el weighted array model (WAM), que serveix per reconèixer llocs d'splicing. Resumint, per tant, aquest programa va ser dissenyat per capturar les característiques de composició de les diverses unitats funcionals d'un gen eucariota: exons, introns, senyals, promotors, ...

  • Avantatges:
    Capacitat d'identificar l'abscència o la presència de gens únics o múltiples, que poden ser complerts o parcials.
    El diferent contingut de (C+G)% no modifica el seu funcionament.
    Identificació de l'estructura completa del gen, incloent informació del promotor.
    Capacitat de predir sistemes constants de gens de les dos hebres del DNA.
    Capacitat de generar una imatge que il.lustra els exons predits.
  • Desavantages:
    No té en compte l'splicing alternatiu.
    No té en compte la solapació d'exons.
    És específic d'organisme.
  • Ara passarem a explicar el que seria propiament mètodes:

    El següent pas va ser crear un programa en Perl (link explicació detallada del SCRIPT) per tal de considerar només aquelles anotacions que es trobaven dins les regions ENCODE.

    Les que vam trobar dins ENCODE.txt les vam utilitzar per dur a terme els passos següents:

    1. En primer lloc, vam construir un conjunt d'anotacions que incloïa totes les anotacions trobades a RefSeq.txt i Ensembl.txt (separades per cada cromosoma) eliminant aquelles que estaven repetides(link explicació detallada del SCRIPT).

    2. En segon lloc, vam repetir el pas 1 però ara per les anotacions de geneid.txt i genscan.txt (separades per cada cromosoma), tornant a eliminar totes aquelles que estaven repetides.(link explicació detallada del SCRIPT).

    3. A partir dels dos conjunts creats, vam comptar quantes anotacions de geneid.txt i de genscan.txt se solapaven amb les anotacions de RefSeq.txt i Ensembl.txt també per cada cromosoma.(link explicació detallada del SCRIPT).

    4. En aquest pas, més concretament, per les anotacions trobades de geneid.txt que no se solapaven entre elles,vam buscar amb ESTs evidència experimental de que aquests gens podien ser reals. La forma d'esbrinar-ho era mirar que, per a cada gen,almenys un EST creués els llindars d'un intró del gen en qüestió (link explicació detallada del SCRIPT).