Tot i que el hit 2 es troba en el mateix contig que el hit 1 (scaffold_6), les regions on es localitzen els hits són suficientment distants com perquè els resultats no es vegin alterats. El blast ens alinea la query gairebé sencera
, però l'exonerate i el genewise ens prediuen dues proteïnes idèntiques bastant més curtes que la query
. Aquest resultat es corrobora amb el T-COFFEE, on també veiem que la proteïna predita és semblant a la query
. El fet que tots dos programes ens prediguin la mateixa proteïna i que aquesta sigui tan curta ens fa dubtar sobre si aquesta deu ser o no funcional, però l'score del T-COFFEE (per similaritat d'aminoàcids) als dominis més importants de la proteïna i el resultat del blastp
"putative peptide methionine sulfoxide reductase protein [Parvularcula bermudensis HTCC2503]", ens fan pensar que efectivament es tracta d'un homòleg amb cisteïna de la nostra proteïna.
Per tant, els nostres resultats indiquen que podem trobar dos homòlegs a MsrA diferents en el mateix contig (Scaffold_6) d'aquest organisme.
En aquest cas, corresponent a un contig diferent, el blast ens alinea una cisteïna amb la nostra selenocisteïna de la query
(veure blast). Igual que en el cas del hit1, el resultat de l'exonerate ens dóna una proteïna més curta que la query
(veure exonerate), en canvi, el genewise ens dóna una proteïna gairebé tan llarga com la query, amb un score correcte
(veure genewise). Els resultats obtinguts anteriorment es corroboren al fer córrer el T-COFFEE entre la nostra query i les proteïnes predites pels programes
(veure T-COFFEE exonerate) (veure T-COFFEE genewise) Com hem dit, en l'alineament amb la proteïna predita pel genewise, obtenim un resultat semblant al del hit1, amb l'última regió conservada però amb un domini intern que té un score bastant baix i poc conservat. Per tant, considerem que aquesta proteïna pot acostar-se més a la possible proteïna present en aquest organisme. La proteïna predita (que seria un homòleg amb cisteïna), seria la següent:
>scaffold_15:subseq(860425,30000).pep
MPSNSPSIPNLELATIAGGCFWGLELALQRLDGIKYTLVGYTQGLDKEMKPNYEQVSSGNTNHCEAVIIYYDPSIVSYET
VLRAVLDRVDITTVNGQGRDYGKQYRTGIYFHTIQQQEIARRILSEELIINPKYKNNKKIKIKIATELKPAKAFWPAEDYHQQYLEK
Aquesta proteïna ens era bastant familiar, ja que s'assemblava molt a la predita pel hit 1. Al fer un T-COFFEE entre les dues proteïnes predites pel genewise (hit 1 i hit 3)
(veure), obtenim un score de 99 amb només 3 canvis d'aminoàcid entre les dues proteïnes predites. Així doncs, creiem que es pot haver donat una duplicació de la proteïna en dues regions diferents del genoma (a més, creiem que aquesta duplicació és relativament recent, ja que només s'observa una diferència de tres aa entre les dues proteïnes). El resultat del blastp amb aquesta proteïna predita pel genewise ens dóna el mateix resultat que amb la proteïna predita pel hit1
(veure blastp).
HIT 4:
En el cas del hit4, el blast ens alinea la selenocisteïna de la query amb un codó STOP, un fet que ens va fer pensar inicialment que podria tractar-se d'una selenoproteïna
(veure blast). Al seguir amb la predicció d'aquesta possible selenoproteïna, obtenim resultats diferents segons el programa utilitzat. L'exonerate ens alinea la nostra query (a partir de l'aminoàcid 17) amb la proteïna predita en gairebé la seva totalitat
(veure), presentant un bon alineament. El genewise, en canvi, ens dóna un alineament a partir de la selenocisteïna
(veure). La proteïna predita pel genewise, en aquest cas, no ens és útil, de manera que fem un T-COFFEE entre la possible selenoproteïna predita per l'exonerate i la selenoproteïna query, obtenint un bon score (87)
(veure T-COFFEE).
Aquest resultat positiu del T-COFFEE i de l'exonerate, tot i el malalineament del genewise, ens fan pensar en la possibilitat de que el genoma de
F.cylindrus presenti en aquest contig una selenoproteïna que tindria la seqüencia següent:
>scaffold_26:subseq(798347,30000) [translate(1)]
AMGUFWGPQRDFDQTEGIANTVVGYSGSVSRDSTVNPTYRNIRDYAESIRITYNADKLKYEDLLEMFFDM
HHPSDSRYGTQYRSAIFVYSEEQKQLAEAACKKRGSVGELVKIEDASDFYRGEEYHQKYVEKATSRR
Al analitzar amb BLASTp aquesta seqüència proteica amb una base de dades de proteïnes no redundants, ens apareixen molts hits de diferents MsrA d'organismes, així com un hit anomenat selenoprotein [Aureococcus anophagefferens], amb un score molt elevat
(veure blastp). Per tant, tot indica que és probable que existeixi un homòleg de la selenoproteïna MsrA en el genoma de
F. cylindrus.
A més, en aquest contig el programa SECISearch ens ha predit un element SECIS situat a 757pb en direcció 3' de la proteïna. Cal tenir en compte, però, que aquest element SECIS té un score baix i està predit amb un patró poc estricte
(veure SECIS).
HIT 5:
Aquest hit ens dóna un resultat molt semblant a l'anterior. En el blast, la selenocisteïna de la query (X) s'alinea amb un codó STOP. Com en el hit anterior, l'exonerate ens fa un alineament molt correcte amb la query i alineant la SelCys amb un codó STOP
(veure). Els genewise altra vegada ens alinea a partir de la selenocisteïna (o el codó STOP)
(veure), per tant no ens serveix per predir correctament la proteïna. La proteïna predita pel exonerate l'alineem mitjançant T-COFFEE amb la query, obtenint un bon resultat i un alineament bastant complert
(veure T-COFFEE). Tots aquests fets ens fan concloure que és molt probable que existeixi una altra selenoproteïna en aquest organisme, la seqüència de la qual seria:
>scaffold_60:subseq(158427,30000) [translate(1)]
AMGUFWGPQRDFDQTEGIASTVVGYSGSVSRDSTVNPTYRNIRDYAESIRITYNADKLKYEDMLEMFFDM
HTPSDSRFGGTQYRSAIFVYTEEQKQLAEVACKKRGSVGELVKIEDASDFYRGEEYHQKYVEKATSRR
També en aquest contig el programa SECISearch ens ha predit un element SECIS situat a 784pb en direcció 3' de la proteïna. Altra vegada cal tenir en compte que aquest element SECIS està predit amb un patró poc estricte i té un score baix
(veure SECIS).
Al veure que les seqüències predites pel hit 4 i 5 eren molt semblants, vam decidir de fer un T-COFFEE alineant les dues proteïnes. El resultat va ser un score de 99 amb molts pocs canvis d'aminoàcids
(veure T-COFFEE). Altra vegada sembla que trobem una duplicació, en aquest cas d'una selenoproteïna. Vam plantejar-nos que pogués tractar-se d'algun error en el nom dels contigs, però al haver-hi certs canvis puntuals d'aminoàcids, sembla més probable que efectivament aquesta proteïna es dupliqués en algun moment i hagués evolucionat divergentment. El fet que els aminoàcids estiguin tan conservats, a més, podria significar que totes dues proteïnes siguin funcionals i estiguin molt conservades, o que la duplicació hagi sigut recent i no hi hagi hagut prou temps com perquè siguin més diferents.
HITS 6 i 7:
Aquests dos hits tenien e-values baixos amb el blast, i tots dos, tot i que pertanyien a contigs diferents, alineaven la query amb una regió molt semblant
(veure blast). L'exonerate no ens donava cap resultat, però el genewise ens predia dues proteïnes amb scores relativament bons
(genewise hit 6) (genewise hit 7). Al alinear les dues proteïnes predites pel genewise amb la query al T-COFFEE, obtenim també bons alineaments (scores de 88 i 89 respectivament)
(T-COFFEE hit 6) (T-COFFEE hit 7). A més, quan alineem les dues proteïnes predites, tornem a veure que són gairebé idèntiques, amb un score de 98 i 6 canvis d'aminoàcids entre les dues
(comparació). Amb tot això, podem concloure que es tracta de dues proteïnes altre cop duplicades que són homòlogues amb la nostra selenoproteïna, però que tenen cisteina enlloc de la selenocisteïna.
HIT 8:
Aquest hit tenia un e-value baix, i tot i que l'exonerate no ens donava cap resultat, el genewise ens donava un alineament que incloïa la selenocisteïna i l'alineava amb una cisteïna de l'organisme
(veure). La proteïna predita pel genewise l'alineem amb la query mitjançant el T-COFFEE i veiem que té un score alt (96), i que s'alinea molt bé en la regió del mig de la query
(veure). Segons aquests resultats sembla que acabem de trobar una altra proteïna homòloga a la nostra selenoproteïna, però amb una cisteïna enlloc de la selenocisteïna. Per corroborar els resultats fem correr un blastp amb la proteïna predita amb el genewise
(veure). El hit més rellevant correspon a una
hypothetical protein de [Phaeodactylum tricornutum CCAP 1055/1], amb el que s'alinea desde l'aminoàcid 1. La proteïna de
Phaeodactylum, però, té uns 60 aminoàcids més que la proteïna que havíem predit nosaltres. De tota manera, sembla que és possible que haguem trobat un homòleg amb cisteïna de la nostra selenoproteïna en aquesta regió de
F. cylindrus.
HIT 9:
Aquest hit ens alineava des de l'aminoàcid 1 de la query al 79 amb una seqüència de l'organisme. Tant el genewise com l'exonerate ens predien proteïnes idèntiques que alineaven la selenocisteïna de la query amb una cisteïna de la seqüència de l'organisme
(veure exonerate) (veure genewise). Els resultats del T-COFFEE entre la query i la proteïna predita (òbviament idèntiques), ens dóna un resultat positiu (score de 98) però només alinea la primera part de la query
(veure T-COFFEE). Altra vegada, els nostres resultats indiquen que és possible trobar un altre homòleg amb cisteïna de la selenoproteïna query en aquest contig de
F. cylindrus.
HITS 10 i 11:
Aquests dos hits del blast en el mateix contig (scaffold_40), al fer l'exonerate i el genewise donen el mateix resultat: una proteïna idèntica de 99 aminoàcids
(veure). El T-COFFEE d'aquesta proteïna amb la query dóna un resultat bastant positiu, tot i que s'alinea només amb la primera part de la query
(veure T-COFFEE). Com ja hem vist en tots els hits anteriors, sembla que en aquest contig també trobem una proteïna homòloga a MsrA amb cisteïna.
HITS 12 i 13:
Els hits 12 i 13 del blast ens mostraven dos alineaments en el mateix contig, que al analitzar-los amb l'exonerate i el genewise ens donen un únic resultat
(veure exonerate) (veure genewise). Les proteïnes predites per cada programa, però, són diferents. Com en altres ocasions, el genewise ens ha predit una proteïna molt més llarga (151aa vs 82 de l'exonerate). En aquesta ocasió, tan el genewise com l'exonerate "eliminen" un nucleòtid de la seqüència perquè es dongui una pauta de lectura correcta. El genewise prediu la proteïna correctament perquè és capaç d'eliminar el nucleòtid, però el fastatranslate de l'exonerate no és capaç d'eliminar el nucleòtid i ens prediu una proteïna molt dolenta. El que hem fet és eliminar aquest nucleòtid del fastasubseq i tornar a fer el fastatranslate de l'exonerate per tenir la proteïna predita correcta
(veure proteïna correcta). Amb aquesta proteïna "corregida" i amb la predita pel genewise, fem un alineament amb la query mitjançant l'eina T-COFFEE, obtenint dos resultats molt diferents
(veure T-COFFEE exonerate) (veure T-COFFEE genewise). La proteïna predita pel genewise alinea amb gairebé tota la query però amb un score inferior, mentre que la proteïna predita per l'exonerate alinea amb només la primera part de la query amb un score més elevat. Al fer el blastp
(veure) amb la proteïna predita pel genewise (ja hem vist anteriorment que aquest programa acostuma a predir proteïnes més semblants a les de la base de dades), obtenim bons hits corresponents a proteïnes homòlogues a MsrA d'altres organismes.
HITS 14 i 15:
Tot i que aquests dos hits tenien e-values acceptables en el blast, a l'analitzar la regió de l'alineament ni l'exonerate ni el genewise han reportat cap resultat.
Tornar a dalt »