Discussió P.pallidum

En el genoma d'aquest organisme hem obtingut 3 hits significatiu, tots ells en el mateix contig i no solapants:
		ALINEA		E-VALUE
hit0:		Null		7e-19
hit1:		Lys		4e-21
hit2:		Null		4e-21
Els alineaments identificats com NULL (hits 0 i 2) no contenen la selenocisteïna de la query.
Quan analitzem els hits amb Exonerate observem que tots tres reporten dues proteïnes de tres exons en què la selenocisteïna alinea amb un codó TGA (STOP) al final del primer exó.
Les dues prediccions de cada arxiu tenen sempre puntuacions de 279 i 256 i aquestes corresponen a idèntiques proteïnes. A banda, la query alinea sempre entre els residus 23 i 180. Amb tot això sospitem que estem davant de dues proteïnes diferents (i altament similars) codificades per regions contigües que hem detectat 3 cops donada la naturalesa local dels alineaments del tBLASTn. El resultat del fastatranslate mostra les dues proteïnes predites per l'Exonerate.
Si comparem els resultats del fastratranslate i del genewise veiem lleugeres diferències quant a la seqüència d'aminoàcids predita. El Genewise reporta una proteïna idèntica pels 3 hits, de seqüència:
>gi|284795324|gb|GL290996.1|:subseq(46077/48080/48408,30000).pep	
SILTLKSKFINTFIGCNELVEKYGTEEFAILGFPCSQFMNQAPGSDQEFLLTLKYVRPGD
NFVPNFLLFTKSNVNGDPSQISPVFQWLRSGCGATSQTIIDTSLISWTPVLTNDITWNFE
KFLVSKTGQLVRRYS
El fragment primer SILTLKSKFINTFIG se situa abans d'un motiu que hem trobat conservat a totes les proteïnes predites, caracteritzat per l'estructura regular NVAS-U/C, on (-) correspon a un aminoàcid qualsevol i U/C designa la variabilitat entre selenoproteínes i homòlegs amb cisteïna.
El fragment a continuació correspon al 2on exó predit per Exonerate.

Com ja hem comentat, Genewise mostra només la millor predicció en cada sentit d'entre totes les que pot fer. La nostra hipòtesi és que les dues proteïnes es troben seguides al mateix strand i una dóna major puntuació a l'algoritme del Genewise, que la mostra i oculta l'altra, al contrari que Exonerate, que mostra les dues. A causa de la naturalesa del nostre script, quan generem la proteïna amb el fastatranslate agafem tots els exons predits, encara que siguin de dues proteïnes diferents, per això obtenim una única proteïna molt llarga que en realitat correspon a les dues proteïnes predites.

Comparant amb TCoffee els resultats del fastatranslate contra query obtenim un score de 97. Creiem correcte afirmar que ens trobem davant dues seqüències homòlogues a la nostra query i altament similars. En aquest alineament podem veure també que les dues prediccions donen proteïnes gairebé idèntiques. Això ens referma en la nostra sospita que són dues selenoproteïnes molt semblants codificades per gens distanciats poc més d'1kb. Ara bé, el fet de no haver trobat elements SECIS ens impedeix estar completament segurs d'aquesta interpretació.

Per últim, al fer un BLASTp contra la base de dades del NCBI amb les proteïnes predites pels diferents programes, identifiquem la primera seqüència com una GPX-like protein de P.pallidum i la segona com la GPx1 del mateix organisme. Fins el dia 22 de gener la seqüència amb millor puntuació, publicada, corresponia l'exó 2 predit per l'exonerate. Després d'aquest dia la predicció passà a incloure la regió N-terminal de la proteïna, que conté la selenocisteïna.
Creiem que en un principi la proteïna estava malament predita (com hem comentat a la introducció, els mètodes informàtics de predicció de gens tenen problemes amb les selenoproteïnes) i que aquest error ha estat subsanat mentre fèiem el treball.


Tornar a Resultats