Discussió S.parasitica

En aquest organisme hem obtingut 5 hits significatius, 3 dels quals en la mateixa regió.
En analitzar aquests 3 hits, tant amb l'Exonerate com amb el Genewise, obtenim la mateixa proteïna. La d'Exonerate és molt llarga, amb diversos codons stop. Per intentar entendre millor els resultats, hem intentat reduir les subseq i analitzar-les novament mitjançant Exonerate i Genewise. Hem analitzat per separat una zona més petita entorn de cada hit, aproximadament d'1kb en cada direcció. Per al primer hit, hem generat aquest arxiu i per al segon aquest. A partir d'aquestes regions apliquem l'Exonerate i obtenim en el primer cas aquest resultat i en el segon aquest.
Veiem que per al primer cas, predim les dues primeres proteïnes que predíem amb la subseq completa. Com en aquell cas, la segona proteïna predita, es troba dins d'una zona que en la primera proteïna ha estat predita com a intró. Hem definit aquesta proteina com a proteïna B i la primera (més gran) com a proteïna A. En el segon cas veiem que prediu una proteïna idèntica a la proteïna B, però com que en aquest cas la subseq és diferent, podem afirmar de que es tracta d'una còpia diferent.
Amb tot això concloem que tenim una proteïna que alinea molt bé amb la nostra query (proteïna A) i una altra proteïna (proteïna B) que és un fragment d'aquesta primera.
Aquesta proteïna B l'hem predit en dues posicions diferents:
  • en primer lloc dins de la zona descrita com a intró per a la proteïna A
  • en segon lloc en una regió propera però diferent del mateix contig.
  • A continuació és mostra un alineament entre la nostra query, la proteïna A i la proteïna B obtingudes amb el Genewise, que mostra un resultast totalment equivalents als del Exonerate.

    CLUSTAL W (1.83) multiple sequence alignment
    
    SPP00000004_1.0                                       MCAARLAAAAAAAQSVYAFSARPLAGGEPVSLGSLRGKVLLIENVASLXG
    gi|288565311|gb|GG743886.1|_subseq_1157381_3119_.pep  --------------------------GQRVPMATFRGRVCLVVNVASAXG
    gi|288565311|gb|GG743886.1|_subseq_1160500_2600_.pep  -------------------------------------------------G
                                                                                                           *
    
    SPP00000004_1.0                                       TTVRDYTQMNELQRRLGPRGLVVLGFPCNQFGHQENAKNEEILNSLKYVR
    gi|288565311|gb|GG743886.1|_subseq_1157381_3119_.pep  LTKVNYTQLVQLDDKLRERGLQILAYPCNQFGGQEPGTNAEIMAFV----
    gi|288565311|gb|GG743886.1|_subseq_1160500_2600_.pep  LTKLNYTQLVELDNKYRDRGLQILAYPCNQFGGQEPGTNEEIMAFV----
                                                           *  :***: :*: :   *** :*.:****** ** ..* **:  :    
    
    SPP00000004_1.0                                       PGGGFEPNFMLFEKCEVNGAGAHPLFAFLREALPAPSDDATALMTDPKLI
    gi|288565311|gb|GG743886.1|_subseq_1157381_3119_.pep  --AKFGVRFPLFEKADVNGEHTQEVYAFLKDRLPG---------------
    gi|288565311|gb|GG743886.1|_subseq_1160500_2600_.pep  --AGFNATFPFFEKADVNGDNTQPVYAYLKSKLTGTLG------------
                                                            . *   * :***.:***  :: ::*:*:. *..               
    
    SPP00000004_1.0                                       TWSPVCRNDVAWNFEKFLVGPDGVPLRRYSRRFQTIDIEPDIEALLSQGP
    gi|288565311|gb|GG743886.1|_subseq_1157381_3119_.pep  --------DITWNFAKFLVDRHGQPVKRYDPNVAPFDLEADIEALL----
    gi|288565311|gb|GG743886.1|_subseq_1160500_2600_.pep  -------SAIKWNFTKFLVDRNGQPFKRYSPQTAPMDFEADILQLLD---
                                                                   : *** ****. .* *.:**. .  .:*:*.**  **    
    
    SPP00000004_1.0                                       SCA
    gi|288565311|gb|GG743886.1|_subseq_1157381_3119_.pep  --A
    gi|288565311|gb|GG743886.1|_subseq_1160500_2600_.pep  --Q
    

    Per acabar mostrem un esquema on es mostra la distribució de les diferents seqüencies en el contig que tractem, on es s'indiquen la situació relativa dels tres hits i les proteïnes predites.

    Creiem que només la proteïna identificada com A a l'esquema és una possible selenoproteïna, ja que trobem elements SECIS a la regió 3'.

    El tBLASTn alinea la Sec del hit de la regió gb|GG743915.1| amb un codó STOP que identifiquem amb un codó TGA a l'Exonerate. Creiem que les prediccions que obtenim amb l'Exonerate i el Genewise són acceptables, tot i que, com en molts altres casos, el Genewise inicia la proteïna just després del codó STOP que correspon a la Sec de la query. Això fa que l'alineament amb TCoffee tingui un score alt però que alineï la Sec amb un Gap.
    No obstant, hem mirat la proteïna predita amb l'Exonerate i té una part comuna a la del Genewise, és a dir, els dos programes han predit la mateixa proteïna però fragmentada en llocs diferents. Fabricant manualment un híbrid entre els dos resultats (fent solapar la zona comuna) obtenim una proteïna que en l'alineament amb la nostra query dona un valor molt alt. Podem veure l'alineament aquí.
    Aquest fet, unit a la presència de dos possible elements SECIS en la regió 3' del gen ens permeten hipotetitzar la presència d'una selenoproteïna homòloga a GPx1 en aquesta regió.

    Pel que fa a l'últim hit significatiu, el de la regió gb|GG744085.1|, no alinea la nostra selenoproteïna amb cisteïna o codó STOP ni en el tBLASTn ni en cap de les proteïnes predites ni amb el Genewise ni amb l'Exonerate. A més tampoc veiem presència d'elements SECIS. Per tant creiem correcte afirmar que aquest hit només té significat estadístic i que realment és només una regió amb semblança suficient per superar les comprovacions estadístiques del BLAST.

    Tornar a Resultats