Discussió P. tricornutum

En el genoma d'aquest organisme hem obtingut 3 hits significatius en contigs diferents. Analitzant-los amb detall veiem que:
		ALINEA		E-VALUE
hit0:		Stop		1e-17	
hit1:		Cisteïna	5e-14
hit2:		No apareix	2e-07
Després d'extreure la seqüència i córrer-hi l'Exonerate observem resultats coherents amb el que vèiem al tBLASTn.
		ALINEA		SCORE
hit0:		TGA 1er exó	185
hit1:		TGT 1er exó	123
hit2:		No resultat

Deduïm que el hit2, que no mostrava la selenocisteïna al resultat del tBLASTn, no conté cap regió exònica completa (per això l'egrep exon no n'ha extret cap resultat).

El resultat de Genewise concorda amb Exonerate-fastatranslate pels hits 0 i 1. Pel hit 2 ens dóna un resultat que analitzat amb BLASTp veiem que es correspon a un domini de les thioredoxin-like proteins ja predit pel nostre organisme. Ni Genewise ni Exonerate prediuen una proteïna en aquesta regió, per tant hipotetitzem que tot i trobar una seqüència que podria codificar pel domini d'una proteïna, en realitat s'ha perdut i es tracta d'un pseudo-gen.

Pel que fa al hit 0, si comparem amb TCoffee els resultats de fastatranslate i de Genewise veiem que el segon dóna una seqüència més llarga (segurament perquè no té en compte que la proteïna s'acabi), però la part comuna és idèntica, de manera que l'alineem amb la query amb TCoffee:

T-COFFEE, Version_8.99(Tue Jan 25 16:00:40 CET 2011)
Cedric Notredame 
SCORE=97
*
 BAD AVG GOOD
*
gi|217405287|gb   :  98
SPP00000004_1.0   :  95
cons              :  97

gi|217405287|gb       1 --------------------------GEAVPMS    7 
SPP00000004_1.0       1 MCAARLAAAAAAAQSVYAFSARPLAGGEPVSLG   33 

cons                  1                           **.*.:.   33 


gi|217405287|gb       8 SFEGNVCLVVNVASKXGLTKMNYTQLPQLVDEY   40 
SPP00000004_1.0      34 SLRGKVLLIENVASLXGTTVRDYTQMNELQRRL   66 

cons                 34 *:.*:* *: **** ** *  :***: :*  .    66 


gi|217405287|gb      41 GSRGLKILAFPCNQFGGQEPGSPEEILAFVAKY   73 
SPP00000004_1.0      67 GPRGLVVLGFPCNQFGHQENAKNEEILNSL-KY   98 

cons                 67 *.*** :*.******* ** .. ****  : **   99 


gi|217405287|gb      74 DK---EMAKKLVFFEKADVNGANTREVYSYLKK  103 
SPP00000004_1.0      99 VRPGGGFEPNFMLFEKCEVNGAGAHPLFAFLRE  131 

cons                100  :    :  ::::***.:****.:: ::::*::  132 


gi|217405287|gb     104 ---------------------------------  103 
SPP00000004_1.0     132 ALPAPSDDATALMTDPKLITWSPVCRNDVAWNF  164 

cons                133                                    165 


gi|217405287|gb     104 ---------------------------------  103 
SPP00000004_1.0     165 EKFLVGPDGVPLRRYSRRFQTIDIEPDIEALLS  197 

cons                166                                    198 


gi|217405287|gb     104 ---TCP  106 
SPP00000004_1.0     198 QGPSCA  203 

cons                199    :*.  204 


Observem que les selenocisteïnes de la query i la proteïna predita estan alineades i que es conserva el domini thiorredoxin en l'extrem C-terminal (que, sospitem, era el que detectava el hit2).
A la regió 3' d'aquest gen trobem un element SECIS conservat, de manera que creiem correcte afirmar que hem trobat una selenoproteïna homòloga a GPx1 en el genoma de P.tricornutum. Quan fem un BLASTp contra la base de dades de proteïnes no redundants d'NCBI amb la nostra predicció com a query obtenim com a primer hit una proteïna identificada en un article a Nature el 2008 com a glutathione peroxidase domain-containing protein. Creiem que aquesta predicció és incompleta, ja que els sistemes convencionals d'anotació de gens no tenen en compte la recodificació del codó TGA i, per tant, no poden predir de manera acurada i completa les selenoproteïnes.

Pel que fa al hit 1, la selenocisteïna de la query alinea amb una cisteïna. El Genewise prediu una proteïna homòloga en cisteïna a la nostra query amb un score relativament bo (90). No obstant, si realitzem un BLASTp igual que l'anterior, el best hit en aquest cas és una proteïna ja descrita amb el nom de glutathione peroxidase [Phaeodactylum tricornutum CCAP 1055/1]. Per asegurar-nos de que realment la proteïna predita era la proteïna anotada al NCBI, vem realitzar un tblastn utilitzant com a query la proteïna del NCBI contra el genoma del P.tricornutum de la nostra base dades. El resultat es que l'alineament es correspon amb el que reportava el tblastn inicial del nostre hit (mateixa regió genomica: gb|CM000613.1| i mateixa posició dins de la regió 34937-35362).
Per tant, podem afirmar que hem trobat un homòleg en cisteïna de GPx que a més ja havia estat descrit prèviament.


Tornar a Resultats