En la cerca de selenoproteïnes en el genoma de
P. polycephalum, hem obtingut 2 hits que corresponen a dues seqüències idèntiques de dos contigs diferents de l'organisme. El blast només ens alinea la part final de la query, la part que no conté la selenocisteïna
(veure blast). Tot i així, hem analitzat els resultats de l'Exonerate i el GeneWise dels dos hits per separat. El resultat de l'Exonerate ens prediu dues proteïnes idèntiques per tots dos hits, que a més, no alineen la selenocisteïna
(veure). El GeneWise del hit 1
(veure) ens dóna una proteïna gairebé idèntica a la predita per l'Exonerate (un aa més curta). El GeneWise del hit2, en canvi, ens dóna un alineament amb un score no gaire alt (54.10), però que si que alinea la cisteïna de la query amb una cisteïna del genoma
(veure). Aquest resultat ens dóna també un intró d'uns 300pb enmig de la seqüència codificant.
Hem trobat que aquests resultats eren sorprenents, ja que exisitia una seqüència idèntica en dos contigs de l'organisme diferents, però només un dels dos ens reportava un resultat positiu amb els programes de predicció.
Per intentar trobar la raó d'aquests resultats, hem analitzat el fastasubseq dels contigs de tots dos hits, i ens hem trobat que el contig del hit1 és molt curt
(veure contig 1), mentre que el del hit2, és més llarg però té moltes regions marcades com N
(veure contig 2). En el contig 2, corresponent a l'hebra reverse (marcada com [revcomp] en l'Exonerate), trobem inserida una seqüència gairebé idèntica a la del contig 1 (sempre fent el canvi a complementari i revers). La regió que en el contig 2 codifica per la primera part de la proteïna no es troba en el contig 1 (que acaba abans), fet que ens quadra amb els nostres resultats, on la proteïna codificada pel GeneWise del hit 1 era més curta que la del hit 2.
La deducció que hem fet és que existeix un domini de la nostra selenoproteïna que està duplicat en el genoma de
P. polycephalum. Ara bé, degut a la petita mida del contig 1, no podem saber si la proteïna s'ha duplicat completament o si només s'ha duplicat la seqüència final com mostren els resultats. Per aquesta mateixa raó, no podem determinar si la proteïna del hit 1 és tan curta com mostren els resultats (i si té o no la cisteïna homòloga). El que sí que sembla que podem deduïr és que la proteïna codificada per la cadena reverse (contig 2) sí que sembla homòloga, ja que els resultats del T-COFFEE són bastant positius
(veure T-COFFEE hit 2).
Una vegada entès el perquè dels nostres resultats i haver definit la proteïna del contig 2 com un possible homòleg de MsrA amb cisteïna, fem un BLASTp d'aquesta contra la base de dades de proteïnes no redundants. En el BLASTp apareixen proteïnes homòlogues a MsrA, augmentant la possible veracitat de la nostra predicció
(veure BLASTp).
Tornar a dalt »