ALINEA E-VALUE hit0: Stop 1e-17 hit1: Cisteïna 5e-14 hit2: No apareix 2e-07Després d'extreure la seqüència i córrer-hi l'Exonerate observem resultats coherents amb el que vèiem al tBLASTn.
ALINEA SCORE hit0: TGA 1er exó 185 hit1: TGT 1er exó 123 hit2: No resultat
Deduïm que el hit2, que no mostrava la selenocisteïna al resultat del tBLASTn, no conté cap regió exònica completa (per això l'egrep exon no n'ha extret cap resultat).
El resultat de Genewise concorda amb Exonerate-fastatranslate pels hits 0 i 1. Pel hit 2 ens dóna un resultat que analitzat amb BLASTp veiem que es correspon a un domini de les thioredoxin-like proteins ja predit pel nostre organisme. Ni Genewise ni Exonerate prediuen una proteïna en aquesta regió, per tant hipotetitzem que tot i trobar una seqüència que podria codificar pel domini d'una proteïna, en realitat s'ha perdut i es tracta d'un pseudo-gen.
Pel que fa al hit 0, si comparem amb TCoffee els resultats de fastatranslate i de Genewise veiem que el segon dóna una seqüència més llarga (segurament perquè no té en compte que la proteïna s'acabi), però la part comuna és idèntica, de manera que l'alineem amb la query amb TCoffee:
T-COFFEE, Version_8.99(Tue Jan 25 16:00:40 CET 2011)Cedric Notredame
SCORE=97
*
BAD AVG GOOD
*
gi|217405287|gb : 98
SPP00000004_1.0 : 95
cons : 97
gi|217405287|gb 1 --------------------------GEAVPMS 7
SPP00000004_1.0 1 MCAARLAAAAAAAQSVYAFSARPLAGGEPVSLG 33
cons 1 **.*.:. 33
gi|217405287|gb 8 SFEGNVCLVVNVASKXGLTKMNYTQLPQLVDEY 40
SPP00000004_1.0 34 SLRGKVLLIENVASLXGTTVRDYTQMNELQRRL 66
cons 34 *:.*:* *: **** ** * :***: :* . 66
gi|217405287|gb 41 GSRGLKILAFPCNQFGGQEPGSPEEILAFVAKY 73
SPP00000004_1.0 67 GPRGLVVLGFPCNQFGHQENAKNEEILNSL-KY 98
cons 67 *.*** :*.******* ** .. **** : ** 99
gi|217405287|gb 74 DK---EMAKKLVFFEKADVNGANTREVYSYLKK 103
SPP00000004_1.0 99 VRPGGGFEPNFMLFEKCEVNGAGAHPLFAFLRE 131
cons 100 : : ::::***.:****.:: ::::*:: 132
gi|217405287|gb 104 --------------------------------- 103
SPP00000004_1.0 132 ALPAPSDDATALMTDPKLITWSPVCRNDVAWNF 164
cons 133 165
gi|217405287|gb 104 --------------------------------- 103
SPP00000004_1.0 165 EKFLVGPDGVPLRRYSRRFQTIDIEPDIEALLS 197
cons 166 198
gi|217405287|gb 104 ---TCP 106
SPP00000004_1.0 198 QGPSCA 203
cons 199 :*. 204
Observem que les selenocisteïnes de la query i la proteïna predita estan alineades i que es conserva el domini thiorredoxin en l'extrem C-terminal (que, sospitem, era el que detectava el hit2).
A la regió 3' d'aquest gen trobem un element SECIS conservat, de manera que creiem correcte afirmar que hem trobat una selenoproteïna homòloga a GPx1 en el genoma de P.tricornutum. Quan fem un BLASTp contra la base de dades de proteïnes no redundants d'NCBI amb la nostra predicció com a query obtenim com a primer hit una proteïna identificada en un article a Nature el 2008 com a glutathione peroxidase domain-containing protein. Creiem que aquesta predicció és incompleta, ja que els sistemes convencionals d'anotació de gens no tenen en compte la recodificació del codó TGA i, per tant, no poden predir de manera acurada i completa les selenoproteïnes.
Pel que fa al hit 1, la selenocisteïna de la query alinea amb una cisteïna. El Genewise prediu una proteïna homòloga en cisteïna a la nostra query amb un score relativament bo (90). No obstant, si realitzem un BLASTp igual que l'anterior, el best hit en aquest cas és una proteïna ja descrita amb el nom de glutathione peroxidase [Phaeodactylum tricornutum CCAP 1055/1]. Per asegurar-nos de que realment la proteïna predita era la proteïna anotada al NCBI, vem realitzar un tblastn utilitzant com a query la proteïna del NCBI contra el genoma del P.tricornutum de la nostra base dades. El resultat es que l'alineament es correspon amb el que reportava el tblastn inicial del nostre hit (mateixa regió genomica: gb|CM000613.1| i mateixa posició dins de la regió 34937-35362).
Per tant, podem afirmar que hem trobat un homòleg en cisteïna de GPx que a més ja havia estat descrit prèviament.
