Validació de les prediccions


Els Expressed Sequence Tags o ESTs són petits fragments d'ADN, normalment entre 200 i 500 nucleòtids, que han estat generats a partir de la seqüenciació de l'inici i/o del final del ARNm de gens expressats.

Això ens permet validar les prediccions realitzades anteriorment, donat que els ESTs representen fragments de gens codificants reals.

- Obtenció de les validacions:

Per tal de validar els gens predits es van seguir els següents passos:

  1. Identifiquem regions de la seqüència on els diferents programes van predir gens similars.
  2. Tallem la seqüència emmascarada per seleccionar dits fragments utilitzant el programa Fastachunk. Per determinar la seva longitud escollim el gen més llarg predit d'aquest fragment i 10.000 nucleòtids de marge a 5' i 3'.
  3. Taula 3. Definició dels blocs

    Nom del bloc
    Inici
    Final
    Prediccions incloses
    Resultat MEGABLAST
    hg16dna_A.fa
    7.150
    94.558
    gen 1 de Geneid, Genscan, Grail i FGenes
    gen 2 de Grail
    MEGABLAST A
    hg16dna_B.fa 107.000 147.000 gen 2 de FGenes
    MEGABLAST B
    hg16dna_C.fa 126.700 268.700 gen 2 de FGenes i Geneid
    gen 3 de FGenes i Genscan
    gen 4 de Grail
    MEGABLAST C
    hg16dna_D.fa 355.000 457.000 gen 3 de Geneid i Genscan (fragment)
    gens 5, 6 i 7 de FGenes
    gen 7 de Grail
    MEGABLAST D
    hg16dna_E.fa 264.800 305.000 gen 4 de FGenes
    gen 6 de Grail
    MEGABLAST E
    hg16dna_F.fa 301.600 402.300 gens 5 i 6 (fragment) de FGenes
    gen 3 (fragment) de Genscan i Geneid
    gen 7 (fragment) de Grail
    MEGABLAST F
    * Donat que els gens 6, 8 i 9 predits pel programa Grail no coincidien amb cap altre predicció i estaven formats per un únic exó, no s'han inclós en cap bloc.
    Taula 2. Coordenades de les prediccions

  4. Obtenim els ESTs humans d'aquests blocs mitjançant el programa MEGABLAST del NCBI, utilitzant la base de dades d'ESTs humans.
  5. Passem els resultats anteriors a format gff amb l'aplicació del programa Parseblast
  6. Seleccionem aquells ESTs que presenten splicing entre ells (spliced ESTs matches) a través d'una comanda d'awk, ja que aquests presenten més probabilitats de pertànyer a un mateix trànscrit.
  7. Mitjançant un petit programa ordenem els fitxers anteriors i eliminem aquells ESTs que no comencen en un exó diferent i ho redireccionem a un altre fitxer .ids. Filtrem els ESTs i els hi donem una nova puntuació en funció de quantes vegades es repeteixen (quantes més aparicions, major puntuació i més suport dels gens predits). Posteriorment seleccionem tots els ESTs que siguin diferents segons el fitxer .ids.
  8. Seleccionem els gens predits provinents dels diferents programes, que corresponen al mateix bloc. A més, per tal que primera coordenada dels gens predits sigui la posició 1 utilitzem una comanda d'awk i els aliniem amb els ESTs mitjançant el programa gff2ps
  9. Transformem l'arxiu gff de cada bloc a png amb una comanda de manera que obtenim els següents esquemes:
Mapa 4. hg16dna_A (.ps) (.pdf)
Mapa 5. hg16dna_B (.ps) (.pdf)
Mapa 6. hg16dna_C (.ps) (.pdf)
Mapa 7. hg16dna_D (.ps) (.pdf)
Mapa 8. hg16dna_E (.ps) (.pdf)
Mapa 9. hg16dna_F (.ps) (.pdf)
Taula 3. Definició dels blocs

- Anàlisi de les dades obtingudes:

  • hg16dna_A
    • En general s'observa una mala predicció dels exons presents a l'extrem final del gen (5' en aquest cas) donat el poc o nul suport per ESTs. Aquest fet pot indicar una possible pertenència d'aquest fragment a un altre gen o bé a un pseudogen, la qual cosa explicaria perquè els programes de predicció han estat capaços de detectar-los ja que presentarien encara un cert biaix codificant i donnor i acceptor splice sites.
    • Per una altra part, es pot assenyalar un possible inici de la transcripció en la posició 64480 aproximadament, alternatiu al predit i validat a 84500, donat que molts ESTs suporten aquesta posssibilitat. També es pot observar la presència de dos ESTs que no presenten splicing amb els altres al voltant de la coordenada 39.000 i que no són predits, la qual cosa es podria explicar per l'existència de certa similitud dels ESTs amb la seqüència, sense pertànyer a aquest gen.
    • En quant a la qualitat de les prediccions, sembla ser que són els programes FGene i Geneid els que més suport tenen per part dels ESTs. Gairebé tots els exons del gen 1 d'aquests es troben validats, tot i que no s'han estimat com a exons potencials dos fragments interns situats al voltant de les posicions 42000 i 47700, ni un situat més a 5' sobre la posició 12500. En cas de la predicció donada pel programa Genscan, s'observa que determina un inici del gen molt posterior (més a 5') que la resta de programes i els ESTs. Per últim, les dades proporcionades per Grail indiquen un inici del gen 2 encara més posterior que el donat pel programa esmentat anteriorment; el gen predit com a 1 només es veu suportat per un EST, el qual presenta splicing amb els ESTs que validen el gen 2, fent pensar que tots dos formarien un únic gen.
  • hg16dna_B
    • El mapa ens indica que els ESTs nomé donen suport a l'exó 3' del gen 2 predit per FGenes, però degut al baix nombre d'ESTs i la mala qualitat d'aquests desestimem aquesta predicció.
  • hg16dna_C
    • Es pot observar que els exons del gen predit per FGenes en reverse, es veuen suportats per ESTs poc significatius, ja que, al igual que abans, aquests semblen estar a les mateixes coordenades que els anteriors però no ens verifiquen que pertanyin al mateix gen i presenten una estructura peculiar (apareixen ESTs molt grans al costat d'altres molt petits).
    • Per una altra banda, sembla ser que les regions 5' predites pels altres programes no es veuen suportades per ESTs, però s'observa una regió a partir de la posició 125.000 força validada. A més, la regió 3' podria correspondre a part d'un gen, en el qual es podria observar una possible isoforma (suportada per la primera línia d'ESTs) no detectada pels programes de predicció.
  • hg16dna_D
    • En general, totes les prediccions semblen estar molt ben suportades per l'existència d'ESTs, ja que la majoria dels exons es troben validats per, com a mínim un EST. En el cas dels programes Geneid i Genscan prediuen un exó inicial no suportat i no són capaços de determinar l'últim exó en 3', el qual és un dels que es trobaria millor suportat. Per una altra part, s'observa que FGenes prediu en aquesta regió tres gens en comptes d'un, amb exons no validats i d'altres no predits, tot i que els ESTs indiquen la presència d'un únic gen. Per últim, veiem que el programa Grail realitza tres prediccions molt similars, de les quals la 7.1 (segona línia del mapa) és la que millor coincideix amb les coordenades dels ESTs. L'exó que apareix a la primera línia de l'esquema no és un gen a part, sino que seria el primer exó de la predicció 7.3 (línia 4)
  • hg16dna_E
    • Tot i l'existència de dos gens, un en forward (sisè del Grail) i l'altre en reverse(quart del FGenes), només mostrem les validacions en forward ja que no hi havia cap EST en reverse ni tampoc hi havia coincidència amb cap dels existents en forward. Igualment, el gen predit en aquesta regió pel Grail, el qual presenta un únic exó, no es troba validat per cap EST.
    • Per una altra banda, el fet que apareguin ESTs similars a aquesta seqüència, indica que probablement no s'ha predit algun gen en aquest fragment, possiblement a causa d'unes senyals d'splicing i d'inici de transcripció febles.
  • hg16dna_F
    • Els resultats obtinguts per aquest bloc, localitzat entre els fragments D i E, ja s'han esmentat en els corresponents blocs.