Anàlisi d'una seqüència anònima de DNA
Index:
Visualització
de les seqüències
repetitives.
Validació de la Predicció dels Gens:
Per tal de visualitzar el resultat amb el programa
gff2ps es va convertir aquest últim fitxer del seu format inicial
a format gff. Mètode
Degut a que molts ESTs només soporten un sol exó, seleccionarem aquells que com a mínim coincideixin en dues regions de la seqüència de manera que suportarien la presencia de més d'un exó. Al mateix temps aplicarem un script realitzat per Josep F.Abril per tal de visualitzar per separat aquells ESTs en forward i revers , i si són 5' o 3'. Aquesta distinció ens donarà informació sobre si són el possible final (3') o inici d'un gen (5'). Mètode
Imatge de la predicció de gens juntament amb els ESTs repetits, separats en forward i reverse i marcats segons siguin 3' o 5'.
Com es pot observar encara és aviat per obtenir
conclusions clares. Per tal de descartar aquella informació redundant
es van eliminar aquells ESTs que eren iguals o que contenien informació
ja assolida i augmentada per altres ESTs. L'arxiu final: AC090953.blast.fixed.best.gff
Es van separar els resultats del programa gff en
dos arxius ps de sortida per tal de visualitzar per separat només
les seqüències en forward o en reverse i al mateix temps es
van ampliar a format din-A3 per visualitzar-ho de manera molt més
clara i precisa. També es van introduir canvis respecte al títol
de les imatges. Mètode
Imatge
en Reverse
Imatge
en Forward
Les dades obtingudes no permeten extreure conclusions definites sobre el conjunt de prediccions realitzades pels programes, per tal d'aprofundir en l'anàlisis es va dur a terme un seguit de noves actuacions.
Utilització del Program EST2GENOME:
Per tal d'aconseguir millor informació es van seleccionar
els millors EST, els més informatius, i es van llançar al
programa EST2GENOME
contra la seqüència AC090953 enmascarada,
ja que el EST2GENOME és un programa d'aliniament millor que el Blast
que haviem utitlitzat per trobar els EST. L'objeciu era aconseguir un nou
aliniament i veure si apareixien nous exons en els EST que poguèssin
reforçar aquells exons de la predicció del Genscan i el Geneid
que encara no ho estaven. Es va aconseguir la seqüència
dels EST seleccionats en el NCBI entrant el nom del EST, les seqüències
dels ESTs es van recollir en l'arxiu seq.DNA.est.txt
Els nous aliniaments van proporcionar nova informació (com l'aparició d'un splice site no canònic), que després amb noves recerques i dades va se utilitzada per extreure les conclusions defenititves sobre la predicció de gens a partir de la visualització dels resultats, prèvia conversió de les dades a format gff.Mètode
Imatge
de Resultats dels nous aliniaments. Forward i Reverse
Blast P:
Simultàniament a la utilització dels EST2genome
es va realitzar un BlastP al NCBI
entre les proteïnes predites pel Genscan i tota la base de dades,
amb la intenció de confirmar l'exitència d'aquestes proteïnes.
Es va realitzar per el Gen 2, 3, 4 en reverse ,5. Pel
Gen 1 ja no es va realitzar ja que havia estat descartat com a predicció
incorrecte al no existir cap EST que reforcés les prediccions.
Es van trobar Blast de gairebé el 100% amb el Gen 2, amb el Gen
4 ( reverse ) i amb el Gen 5. Amb la proteïna de major homologia,
per a cada gen es va obtenir es el seu CDS i es va realitzar
un Blast2sequence amb la seqüència AC090953 enmascarada.
Amb el aliniments de seqüencia amb els CDS de les proteïnes
homologues a les predites es podria obtenir un arxiu en format gff que
ens permetés obtenir un arxiu PS que seria visualitzable.
Els Resultats del Blast2sequence van prorporcionen tres
arxius amb l'aliniament de la seqüència de cada proteïna
amb la seqüènica AC090953.
Per tal de visulitzar els resultats obtinguts amb el Blast P i l'utilització del EST2genome cal convertir els arxius en gff. Mètode
Imatge de Resultats EST2GENOME + BLASTP . Forward i Reverse.
S'HAFEGEIX EL mRNA D'UNA DE LES PROTEÏNES.
L'existència d'un EST al dibuix sembla demostrar
que correspon a un fragment del RNAm de la segona proteïna trobada
mitjançant la cerca amb BlastP. Per tal de demostrar aquesta hipòtesi
es va buscar la seqüència corresponent al RNAm d'aquesta proteïna
coneguda i es va còrrer el programa Blast2sequence per tal d'alinear-la
i poder-la presentar de manera visual amb el conjunt de resultat anteriors.
(Imatge)
En aquest apartat es van buscar les possibles regions
promotores dels nostres gens predits, dels quals havien trobat una proteïna
real.
Per començar a treballar sobre aquest
aspecte es van buscar els RNA missatgers d'aquestes proteïnes a partir
del seu número d'accés.
Proteïna trobada 1 (corresponent al
gen2 de geneid i gescan)- Número d'acces en NCBI: XM_084139
Proteïna tribada 2 (corresponent al
gen4 del geneid i 5 del genscan)- Número d'accés en NCBI:
AAH08322
Proteïna trobada 3 (corresponent al
gen 3 del geneid i 4 del genscan)- Número d'accés en NCBI:AAH10181
A partir de l'aliniament amb el programa Blast2sequence
dels RNA missatgers de les proteïnes trobades i la nostra seqüència
no enmascarada, es va
anotar el primer nucleòtid de la seqüència
que alineava amb la seqüència de RNAm.
Gen 2 (proteïna coneguda1): 50760
Gen 5 (proteïna coneguda2): 141266
Gen 4 [Reverse](proteïna coneguda3): 140909
D'aquesta manera només s'haurien d'extreure
aquelles seqüències de 200 pb anteriors a aquest primer nucleòtid
trobat. Per fer-ho es va fer servir el
programa SS (Genis Parra).Mètode
* Característiques de les proteïnes predites:
Per tal de trobar totes les característiques
de la nostra proteïna, es va fer una recerca a la base de dades de
Swissprot/TrEMBL
Número d'accés en NCBI: XM_084139
Nom de la proteïna: UDP-N-ACETYL-ALPHA-D-GALACTOSAMINE:POLYPEPTIDE
N-ACETYLGALACTOSAMINYLTRANSFERASE 7.
Nom del Gen: GALNT 7
Dominis: Glycosyl transferase, family2 / Ricin B lectin domain
Llargada: 639 aa.
Pes Molecular: 73063 Da.
Número d'accés en NCBI: AAH08322
Nom de la proteïna: UNKNOWN ( PROTEIN FOR MGC: 15763 ).
Nom del Gen: -
Dominis:Oxidoreductase FAD/NAD(P)-binding
Llargada:312 aa.
Pes Molecular: 34854 Da.
Proteïna trobada 3 (corresponent al gen 3 del geneid i 4 del genscan)
Número d'accés en NCBI:AAH10181
Nom de la proteïna: UNKNOWN (PROTEIN FOR MGC:20197).
Nom del Gen: -
Dominis: -
Llargada: 82 aa
Pes Molecular: 9240 Da.
Després de totes les anàlisis realitzades es pot afirmar que a la seqüència AC090953 del cromosoma 3 hi són presents tres Gens. Dos d'aquests gens es troben en Forward i corresponen als gens 2 de les prediccions del Geneid i del Genscan, i gen 4 del Geneid i 5 del Genscan. El tercer Gen, el més curt de tots, es troba en Reverse i correspon al gen 3 del Genid i 4 del genscan. La predicció del Geneid i del Genscan ( pel Gen 1 ) considerem que no és vàlida, ja que no era soportada per cap ESTs, ni la seqüència aminoacídica de la regió del gen correspon amb cap proteïna quan es realitza un BlastP en la base de dades del NCBI. Succeeix el mateix amb la predicció del Genscan ( Gen 3 ), gen que en aquest cas el Geneid no predèia. Aquest gen , no és suportat tampoc per cap ESTs ni es va obtenir cap resultat positiu al realitzar la cerca amb el BlastP. En el cas del Gen en Reverse les prediccions dels programes són de més extensió que el gen que codifica per la proteïna. La predicció de cada porgrama per tant només és una possible aproximació a la realitat.
Els programes de predicció de Gens, malgrat
que permeten un coherent aproximació als possibles gens que hi ha
en una seqüència, no permeten extreure conclusions definitives
sobre la seva presència, i fan necessaris altres anàlisis
més profunts i complementaris, com per exemple la utiltzació
de la base de ESTs, o l'ús de bases de dades de proteïnes.
En en cas del ESTs, malgrat que l'aliniament que proporciona el Blast amb
la base de dades de ESTs humans ja permet confirmar la presència
d'un gran nombre d'exons, per tal d'optimitzar els resutats i obtenir unes
conclusions realment definitives és preferible utilitzar el EST2genome,
programa que permet un perfecte aliniaments amb la seqüència
del ESTs seleccionats.
Pel que fa als ESTs es important remarcar que la seva
anotació ( 5' i 3' ) no és 100% fiable i tampoc si
estan anotats en forward o reverse, fet que s'ha pogut comprovar amb ESTs
concrets.
Cal destacar però que els programes de predicció de gens ( Geneid i Genscan ), només tenen en compte els llocs d'splicing per seleccionar aquells exons que són presents, quan els donor i acceptor sites són canònics. Per contra el EST2genome si que considera els llocs d'splicing no canònics.
En l'ànalisis de les seqüències promotores,
els resultats no es corresponen a les suposicions realitzades abans de
utilitzar el programa MatInspector per l'estudi de la regió promotora.
Sobretot és destacable la absència de la caixa promotora
TATA que no és present en cap de les tres seqüències
5' upstream
dels 3 gens considerats. Hi ha grans possibiltats de
que siguin les regions promotores perquè al alinear el mRNA amb
la seqüència es va obtenir les posicions on s'iniciava la regió
promotora.
La utilització de no només els programes de predicció, sinó de totes les eïnes diponibles en l'anàlisis de les dades, entre elles les aquí utilitzades, permeten extreure conclusions força més fiables sobre la presència de gens en una seqüència genòmica previament no analitzada. Si bé per una confirmació definitiva caldria potser utilitzar altres tècniques corresponents a altres camps diferents a la Bioinformàtica.
Strachan. Tom & Read. Andrew . Genètica Molecular Humana. Ediciones Omega, SA. Barcelona 1999.
Agraïments al Grup de Recerca en Informàtica i Biomèdica de IMIM/UPF, i en especial a Genís Parra per la seva gran ajuda.