HIT REGIÓ E-value Alinea 0 gb|GL349469.1| 4e-33 Stop 1 i 2 gb|GL349472.1| 3e-21 Stop/Gap 3 gb|GL349473.1| 8e-15 Null 4 gb|GL349489.1| 8e-12 Cis 5 i 6 gb|GL349444.1| 1e-08 NullEl hit 0 alinea la selenocisteïna de la query amb un stop codon a la regió genòmica. En analitzar la subsequència amb Exonerate observem que la selenocisteïna alinea amb un TGA del segon exó. El resultat del translate és:
>gi|298517505|gb|GL349469.1|:subseq(66465,30000) AAELEAKAEAWSNIVKIGRTHTMDATPLTLGQLKGKVVLAVNVASY*GLTIPNYNALNSLMTKYANRGFT VIGFPCAQFDNQQPEFTSQQILDGLKYVRPGGGFVANFPLMAKSDVNGASRSPVYAYLTGACPQPMPILE PSTAYISWAPIRPTDITWNFQKYLIHPDTGRPVSVYSPDTLPSDIAADIEALLEl resultat del Genewise comença just després de la Sec i dóna un resultat molt similar al del translate. Hem realitzat un alineament amb TCofee entre la query i les dues prediccions i obtenim el següent:
CLUSTAL FORMAT for T-COFFEE Version_7.54 [http://www.tcoffee.org] [MODE: ],
CPU=0.18 sec, SCORE=97, Nseq=3, Len=205
SPP00000004_1.0 MCAARLAAAAAAAQSVYAFSARPLAGGEPVSLGSLRGKVLLIENVASLXGTTVRDYTQMN
translate --AAELEAKAEAWSNIVKIGRTHTMDATPLTLGQLKGKVVLAVNVASYXGLTIPNYNALN
gw -------------------------------------------------GLTIPNYNALN
* *: :*. :*
SPP00000004_1.0 ELQRRLGPRGLVVLGFPCNQFGHQEN-AKNEEILNSLKYVRPGGGFEPNFMLFEKCEVNG
translate SLMTKYANRGFTVIGFPCAQFDNQQPEFTSQQILDGLKYVRPGGGFVANFPLMAKSDVNG
gw SLMTKYANRGFTVIGFPCAQFDNQQPEFTSQQILDGLKYVRPGGGFVANFPLMAKSDVNG
.* : . **:.*:**** **.:*: ..::**:.********** .** *: *.:***
SPP00000004_1.0 AGAHPLFAFLREALPAPSDDATALMTDPKLITWSPVCRNDVAWNFEKFLVGPD-GVPLRR
translate ASRSPVYAYLTGACPQPM---PILEPSTAYISWAPIRPTDITWNFQKYLIHPDTGRPVSV
gw ASRSPVYAYLTGACPQPM---PILEPSTAYISWAPIRPTDITWNFQKYLIHPDTGRPVSV
*. *::*:* * * * . * ... *:*:*: .*::***:*:*: ** * *:
SPP00000004_1.0 YSRRFQTIDIEPDIEALLSQGPSCA
translate YSPDTLPSDIAADIEAL-------L
gw YSPDTLPSDIAAD-----------I
** . ** .*
Com veiem, en la proteïna predita per Exonerate la selenocisteïna (X) està alineada amb la selenocisteïna de la query. Això, unit a que l'score de l'alieament és de 97 i a que la regió d'aquest hit presenta elements SECIS, ens permet dir que molt possiblement aquest hit correspon a una selenoproteïna homòloga a GPx1 en el genoma de T.trahens.
Els hits 1 i 2 es troben a la mateixa regió, el contig gb|GL349472.1|. Només el primer dels hits alinea la selenocisteïna de la nostra query amb un codó STOP, mentre que la segona ho fa amb un GAP. A més, aquest segon alineament té un score molt més baix i alinea una regió molt més petita. Pel que fa al hit1, les proteïnes predites per l'Exonerate i el Genewise són bones. Si observem l'alineament del Genewise amb la query veiem que té un score de 92 i que alinea la Sec de la query amb una de la proteïna. Creiem molt possible que es tracti d'una selenoproteïna homòloga a la nostra query. Aquesta hipòtesi guanya pes pel fet que trobem un element SECIS en posició 3' respecte el gen de la nostra proteïna. Observant les proteïnes predites pel hit2 (tant amb Genewise com amb Exonerate) veiem que són molt petites i que no inclouen la selenocisteïna. A més, no trobem element SECIS en la subseq d'aquest hit, el que confirma que molt probablement aquest hit no és biològicament significatiu i es tracta només d'una zona amb alta semblança.
El hit 3, que es troba a la regió gb|GL349473.1|, dóna alineament amb el tBLASTn que no inclou la Sec de la nostra query. No obstant, al realitzar l'anàlisi amb Exonerate en la subseq corresponent sí que prediu una proteïna que conté selenocisteïna, cosa que no fa el Genewise. Si alineem aquesta proteïna predita amb la nostra query obtenim aquest alienament. Tot i que l'score és força alt, 91, la no presència d'elements SECIS en la regió d'aquest hit i el fet que el tBLASTn no alineés de bon principi la seqüència correcta ens fa tenir alguns dubtes sobre la validesa d'aquesta possible selenoproteïna. Per això vam comparar la proteïna predita amb la base de dades del NCBI amb un BLASTp i tot i que no vam obtenir cap hit específic, ens va retornar que la possible proteïna era de la família de les Thioredoxin like i que tenia una alta similaritat a la Glutatió peroxidasa 1 de Dario rerio (E-value 3e-22).
El hit 4 mostra el següent alineament:
Regió >gi|298517485|gb|GL349489.1|
Score = 67.0 bits (162), Expect = 8e-12
Identities = 58/171 (33%), Positives = 77/171 (45%)
Frame = +2
Query: 27 GEPVSLGSLRGKVLLIENVASLXGTTVRDYTQMNELQRRLGPRGLVVLGFPCNQFGHQEN 86
G V L S G +L+ NVAS G T YT++ L R P+ L ++GFP N+FG QE
Sbjct: 241592 GREVLLSSYAGSPVLVVNVASECGLTEYMYTRLVRLARA-APQ-LRIIGFPSNEFGGQEP 241765
Query: 87 AKNEEILNSLKYVRPGGGFEPNFMLFEKCEVNGAGAHPLFAFLREALPAPSDDATALMTD 146
+ I + + F L +K EVNGA AHP+F +L A S
Sbjct: 241766 RSSSAIRAEM-----AAAYRVTFPLADKIEVNGARAHPVFKWL----VAESGG------- 241897
Query: 147 PKLITWSPVCRNDVAWNFEKFLVGPDGVPLRRYSRRFQTIDIEPDIEALLS 197
D+AWNF FLV DG R RF+ + IEA ++
Sbjct: 241898 -----------EDIAWNFTVFLVNGDG----RLEGRFEPGEPFEAIEAAVA 242005
El tBLASTn alinea la selenocisteïna query amb cisteïna. Esperem que a EX s'alinii amb un codó de cisteïna, però no obtenim resultats de cap tipus. El fet de no trobar resultats a l'EX reflecteix que el programa no ha trobat cap patró exònic a la seqüència extreta. Per contra, el Genewise ens dóna una proteïna similar a la del tBLASTn i el l'alineament amb TCoffee de la query amb la proteïna predita per GW mostra un score de 88.
CLUSTAL FORMAT for T-COFFEE Version_7.54 [http://www.tcoffee.org] [MODE: ], CPU=0.07 sec, SCORE=88, Nseq=2, Len=203
SPP00000004_1.0 MCAARLAAAAAAAQSVYAFSARPLAGGEPVSLGSLRGKVLLIENVASLXGTTVRDYTQMN
gi|298517485|gb|GL349489.1|_subseq_221592_30000_.pep --------------------------GREVLLSSYAGSPVLVVNVASECGLTEYMYTRLV
*. * *.* *. :*: **** * * **::
SPP00000004_1.0 ELQRRLGPRGLVVLGFPCNQFGHQENAKNEEILNSLKYVRPGGGFEPNFMLFEKCEVNGA
gi|298517485|gb|GL349489.1|_subseq_221592_30000_.pep RLARA-APQ-LRIIGFPSNEFGGQEPRSSSAIRAEM-----AAAYRVTFPLADKIEVNGA
.* * .*: * ::***.*:** ** ... * .: ...:. .* * :* *****
SPP00000004_1.0 GAHPLFAFLREALPAPSDDATALMTDPKLITWSPVCRNDVAWNFEKFLVGPDGVPLRRYS
gi|298517485|gb|GL349489.1|_subseq_221592_30000_.pep RAHPVFKW----------------------------------------------------
***:* :
SPP00000004_1.0 RRFQTIDIEPDIEALLSQGPSCA
gi|298517485|gb|GL349489.1|_subseq_221592_30000_.pep ----------------------L
Els hits 5 i 6, situats a la regió gb|GL349444.1, tenen pitjor E-value que els anteriors. El hit 5 no alinea la regió amb la selenocisteïna i el hit 6 cobreix una regió molt curta. No obstant, Exonerate prediu la mateixa proteïna pels dos hits i aquesta alinea la Sec de la query amb un Stop codon.
Si observem detalladament el tBLASTn, veiem que les dues seqüències alineades ho fan en zones contígües del genoma, de manera que és altament probable que estigui alineant els dos exons de la proteïna, ja que alinea dues zones diferents de la query en regions consecutives del genoma. Això ho comprovem al veure que l'Exonerate prediu una proteïna amb dos exons, de mida semblant, i separats per un intró de exó de 488bp, aproximadament la distancia que separa els dos hits.
La proteïna predita pel Genewise és exactament la mateixa que la predita per l'Exonerate, fet que ens reafirma en la nostra teoria que es tracta de dos exons d'una mateixa proteïna.
Per altra banda, aquesta regió conté un element SECIS en la regió 3' del gen. Això ens fa hipotetitzar que hem trobat una altra selenoproteïna homòloga a GPx en el genoma de T.trahens. Per seguir aprofundint fem un BLASTp contra la base de dades del NBCI amb la proteïna predita i obtenim el següent resultat:
>ref|NP_001105091.1| UniGene info linked to NP_001105091.1Gene info linked to NP_001105091.1 GP protein [Zea mays]
gb|AAM88847.2|AF520911_1 Gene info linked to AAM88847.2 putative glutathione peroxidase [Zea mays]
Length=168
GENE ID: 541968 GP | GP protein [Zea mays]
Score = 212 bits (539), Expect = 1e-53, Method: Compositional matrix adjust.
Identities = 93/159 (59%), Positives = 124/159 (78%), Gaps = 1/159 (0%)
Query 1 AESIYDFTVKDIHGEEISLATYKDTVLLITNVASKXGLTDARYTQLVTLHEKLRDRNFNI 60
A S++DFTVKD G+++ L+TYK VLLI NVAS+ GLT++ YT+L L+EK +D+ F I
Sbjct 7 ATSVHDFTVKDASGKDVDLSTYKGKVLLIVNVASQCGLTNSNYTELSQLYEKYKDQGFEI 66
Query 61 LAFPCNQFGGQEPGTNEEILEFVA-RYNVQFPLFDKIDVNGSNAAPLYRYLKAQSSTLFM 119
LAFPCNQFGGQEPGTNEEI++F R+ ++P+FDK+DVNG N AP+Y++LK+ +LF
Sbjct 67 LAFPCNQFGGQEPGTNEEIVQFACTRFKAEYPIFDKVDVNGDNTAPIYKFLKSSKGSLFG 126
Query 120 TRVKWNFETFVVDADGHVVSRHLPTVSPLSLEDDIVRLL 158
+KWNF F+VD +GHVV R+ PT SPLS+E DI +LL
Sbjct 127 DNIKWNFSKFLVDKEGHVVERYAPTTSPLSIEKDIKKLL 165
