Discussió T.trahens

L'anàlisi amb tBLASTn en aquest genoma reporta 7 hits significatius repartits en 5 regions.
HIT		REGIÓ		E-value		Alinea
0		gb|GL349469.1|   4e-33		Stop
1 i 2		gb|GL349472.1|   3e-21		Stop/Gap
3		gb|GL349473.1| 	 8e-15		Null
4		gb|GL349489.1|	 8e-12		Cis
5 i 6		gb|GL349444.1|   1e-08		Null

El hit 0 alinea la selenocisteïna de la query amb un stop codon a la regió genòmica. En analitzar la subsequència amb Exonerate observem que la selenocisteïna alinea amb un TGA del segon exó. El resultat del translate és:
>gi|298517505|gb|GL349469.1|:subseq(66465,30000)
AAELEAKAEAWSNIVKIGRTHTMDATPLTLGQLKGKVVLAVNVASY*GLTIPNYNALNSLMTKYANRGFT
VIGFPCAQFDNQQPEFTSQQILDGLKYVRPGGGFVANFPLMAKSDVNGASRSPVYAYLTGACPQPMPILE
PSTAYISWAPIRPTDITWNFQKYLIHPDTGRPVSVYSPDTLPSDIAADIEALL
El resultat del Genewise comença just després de la Sec i dóna un resultat molt similar al del translate. Hem realitzat un alineament amb TCofee entre la query i les dues prediccions i obtenim el següent:

CLUSTAL FORMAT for T-COFFEE Version_7.54 [http://www.tcoffee.org] [MODE:  ], 
CPU=0.18 sec, SCORE=97, Nseq=3, Len=205 

SPP00000004_1.0  MCAARLAAAAAAAQSVYAFSARPLAGGEPVSLGSLRGKVLLIENVASLXGTTVRDYTQMN
translate        --AAELEAKAEAWSNIVKIGRTHTMDATPLTLGQLKGKVVLAVNVASYXGLTIPNYNALN
gw               -------------------------------------------------GLTIPNYNALN
                                                                  * *: :*. :*

SPP00000004_1.0  ELQRRLGPRGLVVLGFPCNQFGHQEN-AKNEEILNSLKYVRPGGGFEPNFMLFEKCEVNG
translate        SLMTKYANRGFTVIGFPCAQFDNQQPEFTSQQILDGLKYVRPGGGFVANFPLMAKSDVNG
gw               SLMTKYANRGFTVIGFPCAQFDNQQPEFTSQQILDGLKYVRPGGGFVANFPLMAKSDVNG
                 .*  : . **:.*:**** **.:*:   ..::**:.********** .** *: *.:***

SPP00000004_1.0  AGAHPLFAFLREALPAPSDDATALMTDPKLITWSPVCRNDVAWNFEKFLVGPD-GVPLRR
translate        ASRSPVYAYLTGACPQPM---PILEPSTAYISWAPIRPTDITWNFQKYLIHPDTGRPVSV
gw               ASRSPVYAYLTGACPQPM---PILEPSTAYISWAPIRPTDITWNFQKYLIHPDTGRPVSV
                 *.  *::*:*  * * *    . * ...  *:*:*:  .*::***:*:*: ** * *:  

SPP00000004_1.0  YSRRFQTIDIEPDIEALLSQGPSCA
translate        YSPDTLPSDIAADIEAL-------L
gw               YSPDTLPSDIAAD-----------I
                 **    . ** .*      


Com veiem, en la proteïna predita per Exonerate la selenocisteïna (X) està alineada amb la selenocisteïna de la query. Això, unit a que l'score de l'alieament és de 97 i a que la regió d'aquest hit presenta elements SECIS, ens permet dir que molt possiblement aquest hit correspon a una selenoproteïna homòloga a GPx1 en el genoma de T.trahens.

Els hits 1 i 2 es troben a la mateixa regió, el contig gb|GL349472.1|. Només el primer dels hits alinea la selenocisteïna de la nostra query amb un codó STOP, mentre que la segona ho fa amb un GAP. A més, aquest segon alineament té un score molt més baix i alinea una regió molt més petita. Pel que fa al hit1, les proteïnes predites per l'Exonerate i el Genewise són bones. Si observem l'alineament del Genewise amb la query veiem que té un score de 92 i que alinea la Sec de la query amb una de la proteïna. Creiem molt possible que es tracti d'una selenoproteïna homòloga a la nostra query. Aquesta hipòtesi guanya pes pel fet que trobem un element SECIS en posició 3' respecte el gen de la nostra proteïna. Observant les proteïnes predites pel hit2 (tant amb Genewise com amb Exonerate) veiem que són molt petites i que no inclouen la selenocisteïna. A més, no trobem element SECIS en la subseq d'aquest hit, el que confirma que molt probablement aquest hit no és biològicament significatiu i es tracta només d'una zona amb alta semblança.

El hit 3, que es troba a la regió gb|GL349473.1|, dóna alineament amb el tBLASTn que no inclou la Sec de la nostra query. No obstant, al realitzar l'anàlisi amb Exonerate en la subseq corresponent sí que prediu una proteïna que conté selenocisteïna, cosa que no fa el Genewise. Si alineem aquesta proteïna predita amb la nostra query obtenim aquest alienament. Tot i que l'score és força alt, 91, la no presència d'elements SECIS en la regió d'aquest hit i el fet que el tBLASTn no alineés de bon principi la seqüència correcta ens fa tenir alguns dubtes sobre la validesa d'aquesta possible selenoproteïna. Per això vam comparar la proteïna predita amb la base de dades del NCBI amb un BLASTp i tot i que no vam obtenir cap hit específic, ens va retornar que la possible proteïna era de la família de les Thioredoxin like i que tenia una alta similaritat a la Glutatió peroxidasa 1 de Dario rerio (E-value 3e-22).

El hit 4 mostra el següent alineament:
Regió >gi|298517485|gb|GL349489.1|

 Score = 67.0 bits (162), Expect = 8e-12
 Identities = 58/171 (33%), Positives = 77/171 (45%)
 Frame = +2

Query: 27     GEPVSLGSLRGKVLLIENVASLXGTTVRDYTQMNELQRRLGPRGLVVLGFPCNQFGHQEN 86
              G  V L S  G  +L+ NVAS  G T   YT++  L R   P+ L ++GFP N+FG QE 
Sbjct: 241592 GREVLLSSYAGSPVLVVNVASECGLTEYMYTRLVRLARA-APQ-LRIIGFPSNEFGGQEP 241765

Query: 87     AKNEEILNSLKYVRPGGGFEPNFMLFEKCEVNGAGAHPLFAFLREALPAPSDDATALMTD 146
                +  I   +        +   F L +K EVNGA AHP+F +L     A S         
Sbjct: 241766 RSSSAIRAEM-----AAAYRVTFPLADKIEVNGARAHPVFKWL----VAESGG------- 241897

Query: 147    PKLITWSPVCRNDVAWNFEKFLVGPDGVPLRRYSRRFQTIDIEPDIEALLS 197
                          D+AWNF  FLV  DG    R   RF+  +    IEA ++
Sbjct: 241898 -----------EDIAWNFTVFLVNGDG----RLEGRFEPGEPFEAIEAAVA 242005

El tBLASTn alinea la selenocisteïna query amb cisteïna. Esperem que a EX s'alinii amb un codó de cisteïna, però no obtenim resultats de cap tipus. El fet de no trobar resultats a l'EX reflecteix que el programa no ha trobat cap patró exònic a la seqüència extreta. Per contra, el Genewise ens dóna una proteïna similar a la del tBLASTn i el l'alineament amb TCoffee de la query amb la proteïna predita per GW mostra un score de 88.
CLUSTAL FORMAT for T-COFFEE Version_7.54 [http://www.tcoffee.org] [MODE:  ], CPU=0.07 sec, SCORE=88, Nseq=2, Len=203 

SPP00000004_1.0                                       MCAARLAAAAAAAQSVYAFSARPLAGGEPVSLGSLRGKVLLIENVASLXGTTVRDYTQMN
gi|298517485|gb|GL349489.1|_subseq_221592_30000_.pep  --------------------------GREVLLSSYAGSPVLVVNVASECGLTEYMYTRLV
                                                                                *. * *.*  *. :*: ****  * *   **:: 

SPP00000004_1.0                                       ELQRRLGPRGLVVLGFPCNQFGHQENAKNEEILNSLKYVRPGGGFEPNFMLFEKCEVNGA
gi|298517485|gb|GL349489.1|_subseq_221592_30000_.pep  RLARA-APQ-LRIIGFPSNEFGGQEPRSSSAIRAEM-----AAAYRVTFPLADKIEVNGA
                                                      .* *  .*: * ::***.*:** **  ... *  .:     ...:. .* * :* *****

SPP00000004_1.0                                       GAHPLFAFLREALPAPSDDATALMTDPKLITWSPVCRNDVAWNFEKFLVGPDGVPLRRYS
gi|298517485|gb|GL349489.1|_subseq_221592_30000_.pep  RAHPVFKW----------------------------------------------------
                                                       ***:* :                                                    

SPP00000004_1.0                                       RRFQTIDIEPDIEALLSQGPSCA
gi|298517485|gb|GL349489.1|_subseq_221592_30000_.pep  ----------------------L
Finalment concloem que estem davant una seqüència homòloga a la nostra query que conté una cisteïna enlloc de Sec, i que per tant és un homoleg en cisteina de GPx1 humana.

Els hits 5 i 6, situats a la regió gb|GL349444.1, tenen pitjor E-value que els anteriors. El hit 5 no alinea la regió amb la selenocisteïna i el hit 6 cobreix una regió molt curta. No obstant, Exonerate prediu la mateixa proteïna pels dos hits i aquesta alinea la Sec de la query amb un Stop codon.
Si observem detalladament el tBLASTn, veiem que les dues seqüències alineades ho fan en zones contígües del genoma, de manera que és altament probable que estigui alineant els dos exons de la proteïna, ja que alinea dues zones diferents de la query en regions consecutives del genoma. Això ho comprovem al veure que l'Exonerate prediu una proteïna amb dos exons, de mida semblant, i separats per un intró de exó de 488bp, aproximadament la distancia que separa els dos hits.
La proteïna predita pel Genewise és exactament la mateixa que la predita per l'Exonerate, fet que ens reafirma en la nostra teoria que es tracta de dos exons d'una mateixa proteïna.

Per altra banda, aquesta regió conté un element SECIS en la regió 3' del gen. Això ens fa hipotetitzar que hem trobat una altra selenoproteïna homòloga a GPx en el genoma de T.trahens. Per seguir aprofundint fem un BLASTp contra la base de dades del NBCI amb la proteïna predita i obtenim el següent resultat:
>ref|NP_001105091.1| UniGene info linked to NP_001105091.1Gene info linked to NP_001105091.1 GP protein [Zea mays]
 gb|AAM88847.2|AF520911_1 Gene info linked to AAM88847.2 putative glutathione peroxidase [Zea mays]
Length=168

 GENE ID: 541968 GP | GP protein [Zea mays]

 Score =  212 bits (539),  Expect = 1e-53, Method: Compositional matrix adjust.
 Identities = 93/159 (59%), Positives = 124/159 (78%), Gaps = 1/159 (0%)

Query  1    AESIYDFTVKDIHGEEISLATYKDTVLLITNVASKXGLTDARYTQLVTLHEKLRDRNFNI  60
            A S++DFTVKD  G+++ L+TYK  VLLI NVAS+ GLT++ YT+L  L+EK +D+ F I
Sbjct  7    ATSVHDFTVKDASGKDVDLSTYKGKVLLIVNVASQCGLTNSNYTELSQLYEKYKDQGFEI  66

Query  61   LAFPCNQFGGQEPGTNEEILEFVA-RYNVQFPLFDKIDVNGSNAAPLYRYLKAQSSTLFM  119
            LAFPCNQFGGQEPGTNEEI++F   R+  ++P+FDK+DVNG N AP+Y++LK+   +LF 
Sbjct  67   LAFPCNQFGGQEPGTNEEIVQFACTRFKAEYPIFDKVDVNGDNTAPIYKFLKSSKGSLFG  126

Query  120  TRVKWNFETFVVDADGHVVSRHLPTVSPLSLEDDIVRLL  158
              +KWNF  F+VD +GHVV R+ PT SPLS+E DI +LL
Sbjct  127  DNIKWNFSKFLVDKEGHVVERYAPTTSPLSIEKDIKKLL  165
Com veiem, és un alineament amb un E-value bo de la predicció amb la GP de Zea mays (blat de moro), un homòleg amb cisteïna de la GPx humana usada com a query (cal recordar que no trobem selenoproteïnes en el regne vegetal).

Tornar a Resultats