Búsqueda de las Selenoproteínas
MsrA y SelR en genomas de protistas


MrsA


Resultados



Familia MsrA

GENOMAS PROTISTA

QUERY

TBLASTN

EXONERATE.FA

EXONERATE.GFF

cDNA

PROTEÍNA

PREDICCIÓN

SECIS

ExPASy

2010

Babesia bovis

Entamoeba histolyticarow

Entamoeba terrapinae

Giardia intestinalis

Homólogo con Cisteína

Monosiga brevicollis

Phytophthora ramorum

gb|AAQX01000186.1|

Homólogo con Cisteína

gb|AAQX01000186.1|

Homólogo con Cisteína

Phytophthora sojae

gb|AAQY01001289.1|

Homólogo con Cisteína

gb|AAQY01001289.1|

Homólogo con Cisteína

Theileria annulata

Theileria parva

Trypanosoma cruzi

gb|AAHK01002067.1|

Homólogo con Cisteína

gb|AAHK01000392.1|

Homólogo con Cisteína

gb|AAHK01002852.1|

Homólogo con Cisteína

Thalassiosira pseudonana

gb|AAFD02000005.1|

Homólogo con Cisteína

gb|AAFD02000002.1|

Selenoproteína

gb|AAFD02000002.1|

Homólogo con Cisteína

gb|AAFD02000003.1|

Homólogo con Cisteína

gb|AAFD02000030.1|

Homólogo con Cisteína

2009

GENOMAS PROTISTA

QUERY

TBLASTN

EXONERATE.FA

EXONERATE.GFF

cDNA

PROTEÍNA

PREDICCIÓN

SECIS

ExPASy

Aureococcus anophagefferens

scaffold 1

Homólogo con Cisteína

scaffold 2

Homólogo con Cisteína

scaffold 2

Homólogo con Cisteína

scaffold 4

Selenoproteína

scaffold 5

Selenoproteína

scaffold 7

Homólogo con Cisteína

scaffold 7

Selenoproteína

scaffold 13

Homólogo con Cisteína

scaffold 14

Homólogo con Cisteína

scaffold 41

Selenoproteína

Emiliania huxleyi

scaffold_1

Selenoproteína

scaffold_8

Homólogo con Cisteína

scaffold_11

Selenoproteína

scaffold_11

Homólogo con Cisteína

scaffold_25

Homólogo con Cisteína

scaffold_31

Selenoproteína

scaffold_32

Homólogo con Cisteína

scaffold_48

Homólogo con Cisteína

scaffold_184

Homólogo con Cisteína

scaffold_614

Homólogo con Cisteína

scaffold_633

Homólogo con Cisteína

scaffold_669

Homólogo con Cisteína

scaffold_1084

Homólogo con Cisteína

scaffold_1258

Homólogo con Cisteína

scaffold_1896

Homólogo con Cisteína

Entamoeba dispar

Entamoeba invadens

Homólogo con Cisteína

Eimeria tenella

Homólogo con Cisteína

Leishmania braziliensis

Homólogo con Cisteína

Leishmania mexicana

Homólogo con Cisteína

Neospora caninum

Contig_0000309

Homólogo con Cisteína

Contig_0012348

Homólogo con Cisteína

Plasmodium berghei

Plasmodium chabaudi

Perkinsus marinus

Homólogo con Cisteína

Toxoplasma gondii GT1

Homólogo con Cisteína



volver arriba

Discusión

Para anotar la familia de selenoproteínas MsrA en los genomas de protistas, utilizamos como proteína query una selenoproteína que se identificó en Chlamydomonas reinhardtii en los trabajos de años anteriores.

Cuando quisimos generar una anotación del gen que daba lugar a la proteína mediante el programa Exonerate, tuvimos principalmente dos problemas: el primero fue que éste no nos proporcionaba ningún resultado; y el segundo fue que la predicción obtenida con este programa no era suficiente para el análisis porque no se alineaba la selenocisteína de nuestra query con nuestro genoma.

Para poder solucionar estos problemas utilizamos la opción --exhaustive yes cuando aplicábamos Exonerate, así nos asegurábamos que extraíamos todos los exones que esperábamos. En determinados casos esta opción fue suficiente para generar la anotación correcta del gen como por ejemplo en el genoma de Emiliania huxleyi (scaffold 1896 y 633) o en Trypanosoma cruzi.

Si aún así no se nos anotaba correctamente el gen, comprobávamos en NCBI que la secuencia predicha en el genoma analizado correspondía a un miembro de la familia de la MsrA. En todos los casos que utilizamos esta opción nos confirmó que se trataba de un miembro de esta familia.

Otra opción que aplicamos, fue la creación de lo que llamamos una query híbrida. Se utilizó este método en esos casos en que la selenocisteína de nuestra query Chlamydomonas reinhardtii no se alineaba con el genoma que estábamos analizando. Por esta razón, hicimos una query híbrida para facilitar que el programa Exonerate extendiera la predicción al encontrar un trozo de secuencia idéntica. Para hacer una query híbrida cogíamos el trozo de la secuencia de nuestra query que no se nos había alineado y el resto, la secuencia que se había predicho de nuestro genoma al hacer un tBLASTn. Los genomas en los que tuvimos que utilizar una query híbrida son Emiliania huxleyi (scaffold 11), Thalassiosira pseudonana, Toxoplasma gondii GT1, Neospora caninum, Aureococcus anophagefferens y Perkinsus marinus.

Otra opción fue buscar en NCBI en la opción protein BLAST la secuencia más parecida al resultado del alineamiento con tBLASTn con lo que pudimos obtener la proteína entera de MsrA y la utilizamos como una nueva query. Además se comparó esta nueva query con la query antigua para poder identificar la posición de la Cys correspondiente a la Sel de la otra query. Esto se aplicó en el caso del genoma Giardia intestinalis (lamblia).

No hemos realizado un nuevo tBLASTn con la nueva query hallada (ya sea un híbrido o la hallada en NCBI) porque se alinearía en la misma región que la query inicial: tanto el híbrido como la query de NCBI tienen una región idéntica a lo que se ha predicho mediante la query de Chlamydomonas reinhardtii, por tanto podemos aprovechar el tBLASTn realizado con ésta para ejecutar Exonerate sin temor de no haber incluido la misma región.

Hay que comentar algunos casos especiales donde se ha comprobado que los diferentes contigs se trataban de duplicaciones biológicas o bien de errores en el ensamblaje del genoma que estábamos analizando.

Expliquemos primero el caso del genoma Emiliania huxleyi anotado en el 2009. Cuando realizamos el tBLASTn de este genoma con nuestra query, nos dieron varios contigs que tenían un evalue significativo. Al obtener la secuencia proteíca predicha de cada hit nos dimos cuenta que varios de ellos se trataban de errores de ensamblaje ya que las secuencias proteícas eran la misma. Esto lo pudimos confirmar haciendo un Tcoffee con las secuencias nucleotídicas de cada hit. Vimos que no habían diferenencias, por tanto, se trataban de errores de ensamblaje. Los hits que son errores de ensamblaje es el scaffold 8 con el scaffold 184, scaffold 11 con el scaffold 669, scaffold 1896 con el scaffold 633 y el scaffold 48, y por último, el scaffold 25 con el scaffold 1258. Además, tanto el scaffold 11, el scaffold 669, el scaffold 32 y el scaffold 614 tenían dos hits que observando las secuencias proteícas nos dimos cuenta de que había un solapamiento de las secuencias proteícas de dichos hits. Por tanto, pudimos deducir que se trataban de dos exones separados por un intrón.

Otro caso parecido nos sucedió al analizar el genoma Phytophthora sojae, este genoma contenía un contig con dos hits significativos. Al observar las secuencias proteicas obtenidas nos dimos cuenta que uno de los hits estaba contenido dentro del otro, y por tanto, este solapamiento se trata de dos exones separados por un intrón.

En el caso de Perkinsus marinus, el tBLASTn nos dio dos contigs significativos, al comparlos vimos que los dos eran muy similares aunque las posiciones son diferentes. En este caso se trata de una duplicación génica reciente porque hay algunas diferencias entre las secuencias de cDNA de los dos contigs.

Otro caso muy similiar al anterior es el genoma Phytophthora ramorum. Al realizar un tBLASTn obtuvimos un contitg con dos hits significativos, cuyas secuencias son similares por lo que consideramos que se trataba de una duplicación.

Por último comentar el caso del genoma Monosiga brevicollis, como vemos en el tBLASTn sólo hay un hit significativo. La selenocisteína de la query Chlamydomonas reinharditii no se alineaba con la secuencia de este genoma, por eso hicimos una query híbrida para facilitar que el Exonerate extendiera la predicción al encontrar un trozo de secuencia idéntica. Al realizar el Exonerate vimos que la selenocisteína de nuestra query híbrida seguía sin alinearse con las secuencia del genoma. Por eso, buscamos en el NCBI una proteína que contuviese la secuencia predicha de nuestro genoma. Encontramos esta secuencia en la proteína Monosiga brevicollis MX1 (XP_001750979.1) y la utilizamos como query, de igual modo, no obtuvimos ningún resultado. Por último, aplicamos la secuencia de este genoma en el Expasy que traduce la secuencia de cDNA a secuencia aminoacídica en los seis frames posibles. Entonces buscamos el TGA anterior a nuestra secuencia que se nos alineaba y vimos que correspondía a una región intrónica en lugar de tratarse de una selenocisteína. Concluímos que la secuencia alineada con el tBLASTn de nuestro genoma corresponde a un dominio de la proteína.

En la tabla superior de resultados, el archivo correspondiente a la proteína predicha en cada genoma contiene más detalladamente qué procedimiento se ha seguido en cada uno de los casos para encontrar la selenoproteína finalmente hallada, así como problemas surgidos y explicación del resultado final.

Finalmente, realizamos un ALINEAMIENTO GLOBAL mediante Tcoffee de todas las proteínas predichas en cada organismo que puede ser visualizado clicando aquí. A modo de conclusión, podemos observar que tan sólo hay 8 selenoproteínas en las proteínas predichas en los genomas anotados del 2009 y 2010; cuatro se encuentran en el genoma Aureococcus anophagefferens, tres en el genoma de Emiliania huxleyi (no identificadas en los trabajos de otros años) y una en Thalassiosira pseudonana. El resto de proteínas predichas son homólogos con cisteína.

Para descargar los archivos en formato comprimido haz click aquí.

volver arriba