Estudi de la variabilitat dels gens predits
|
GEN PREDIT | POSICIÓ INICI | POSICIÓ FINAL | NOM SEQÜÈNCIA |
1 genscan/geneid | 1 | 36421 | hg16_dna_1-36421 |
2 genscan/geneid | 79118 | 215671 | hg16_dna_79118-215671 |
3 genscan/geneid | 213644 | 269504 | hg16_dna_213644-269504 |
4 genscan/geneid | 261662 | 338899 | hg16_dna_261662-338899 |
5 i 6 genscan/ 5 geneid | 349269 | 367838 | hg16_dna_349269-367838 |
7, 8 i 9 genscan / 6 geneid | 369503 | 500000 | hg16_dna_369503-500000 |
Un cop vam aconseguir les noves seqüències, ens van disposar a realitzar els mateixos passos que anteriorment estan descrits per la seqüència de 500Kb. En primer lloc però, per treballar amb els fitxers gff del genscan,el geneid,el fgenesh i el grail vam haver de modificar-los amb les noves coordenades. Així a l'hora d'obtenir els gràfics, els gens predits s'aliniarien amb els spliced ESTs. Per fer això vam necessitar l'ordre amb gawk que vam executar sobre els gff de geneid i genscan, per cada gen anteriorment descrit a la taula:
Un cop tenim tot els fitxers, amb els nous gff per geneid i genscan (un per cada gen), hem d'obtenir els gff per les noves seqüències. Aquest procès fins a l'obtenció dels gràfics, on es mostren cada gen per separat amb les prediccions dels ESTs i geneid i genscan, és anàleg a l'utilitzat anteriorment (pas de gff a gff2ps i visualització amb kview).
Al llarg de la realització del treball hem tingut problemes amb el parseblast. Un cop ja havíem dut a terme tot el procès des de l'obtenció dels ESTs, fins a la visualització de les prediccions amb els ESTs spliced per totes les subseqüències, ens vam adonar que la subseqüència compresa entre els nucleòtids 349269-367838, tenia un error (a nivell de megablast). I al dur a terme la repetició ens va sorgir una complicació amb el parseblast que hem estat incapaces de resoldre. Per tant aquesta subseqüència no ha pogut ser analitzada en aquest apartat.
Per accedir als gràfics:
Com es pot observar en els gràfics, no tots els resultats proporcionen nova informació. Així, per exemple, quan representem la primera subseqüència (1-36421), només s'observen dos ESTs un cop s'ha fet el spliced. A part, aquests només ens corroboren el que seria l'extrems 5' del gen predit per geneid i genscan. El fgenesh no predia cap gen en aquesta regió. És per això, que correm un nou megablast amb tots els ESTs (no només els humans). Tanmateix, els resultats no són significativament millors.
- Resultats usant només els ESTs humans:
hg16_dna_1-36421.html
S'observen 21 ESTs, tots ells de transcripts que s'expressen en diferents teixits human.
- Resultats usant tots els ESTs:
hg16_dna_1-36421.t.html
S'observen pràcticament els mateixos ESTs que en el cas anterior, tot i que al blastn li permetiem 1000 descripcions i 1000 aliniaments amb ESTs. Aixó ens fa pensar en quèsi aquest exó que prediuen els programes existeix, possiblement es troba només en humans. Cal pensar també que les bases de dades de ESTs poden no ser completes.
En conclusió, podríem dir que els ESTs no ens validen aquest primer gen que prediuen els programes geneid i genscan.
En la segona subseqüència , la representació del genscan, geneid, fgenesh, grail i els ESTs, mostra que només un EST reconeix en l'extrem 3' de les quatre prediccions,un exó. I després hi ha un conjunt de ESTs a una regi&oaute; més central, que en conjunt només permeten corroborar, i de forma no molt clara, alguns dels exons predits. Per intentar millor la informació de què disposem, farem un script per intentar filtrar els ESTs, ja que el blastn pot donar-nos molts ESTs que se solapin pels seus extrems, i aleshores tenim molta informació redundant.
Tanmateix el resultat després d'haver fet el spliced era exactament el mateix al anterior, com es pot comprovar:
hg16_dna_79118-215671.spliced.est+genepredictions.jpg
En la subseqüència que conté entre els nucleòtids 213644-269504 , hi ha una regió on se solapen molts dels ESTs. Veiem que aquests ESTs confirmen només un dels tres exons (l'últim) que el genscan prediu en el gen 3. En canvi, no ens prediuen cap dels exons del geneid. El que farem és, d'una banda, afegir la informació que ens proporcionaven el grail i el fgenesh hg16_dna_213644-269504.tots.gff, i de l'altra, aplicarem el mateix programa que en el cas anterior per filtrar i repuntuar els ESTs.
Per veure el gràfic :
hg16_dna_213644-269504.genepredicitions.definitiu.jpg
En aquest cas, el que veiem es que no se'ns filtren els ESTs perquè no deuen començar a les mateixes coordenades. Peró a més veiem que els ESTs també confirmen el sisè exó predit per fgenesh.
Una de les altres subseqüències amb que hem treballat és la que està formada pels nucleòtids 261662-338899 . Al gràfic anterior s'observa que hi ha molts ESTs que ens soporten els exons predits en reverse pels diferents programes. Per exemple, estan soportats:
- els exons 2, 4, 5, 6, 7, 8, 9 i 10 del grail
- els exons 1, 2, 3, 4, 5, 6, 7, 8 i 10 de fgenesh.
- els exons 1, 2, 4, 5, 6, 7, 8 i 10 geneid i del genscan.
Però ens estranya molt que havent-hi tants ESTs que prediuen un exó entre els exons 2 i 3 de geneid i genscan, els programes no en prediuen cap.
En el darrer gràfic ,en que consideràvem el gen 6 de geneid, i els gens 7,8 i 9 de genscan, que estan en reverse, apareixen molts ESTs i ens interessa buscar més informació. Per això farem el mateix script per intentar filtrar els ESTs (blastn pot donar-nos molts ESTs que se solapin pels seus extrems, i aleshores tenim molta informació redundant)
I veiem exactament el mateix que abans de filtrar els ESTs:
hg16_dna_369503-500000.spliced.genepredictions.jpg>
Això pot ser degut al fet que els ESTs no tinguin les mateixes coordenades d'inici i/o final, i aleshores no quedarien filtrats amb el script. En les pàgines següents, realitzarem una anàlisi més detallat de la regió central del gràfic, on hi ha aquest conjunt de ESTs que només prediuen l'exó 2 del gen 8 de genscan.
A partir dels ESTs, ens adonem que en aquesta regió hi ha fenomens de splicing alternatiu, perquè, determinats ESTs, prediuen una combinació d'exons diferents entre els diferents ESTs, i també respecte als programes.