Búsqueda de las Selenoproteínas
MsrA y SelR en genomas de protistas


SelR


Resultados




Familia SelR

GENOMAS PROTISTA

QUERY

TBLASTN

EXONERATE.FA

EXONERATE.GFF

cDNA

PROTEÍNA

PREDICCIÓN

SECIS

ExPASy

2010

Babesia bovis

Entamoeba histolyticarow

Entamoeba terrapinae

terra177d01.q1k


Homólogo con Cisteína

terra140f02.p1k


Homólogo con Cisteína

Giardia intestinalis

Homólogo con Cisteína

Monosiga brevicollis

Homólogo con Cisteína

Phytophthora ramorum

Phytophthora sojae

Homólogo con Cisteína

Theileria annulata

Theileria parva

Trypanosoma cruzi

Homólogo con Cisteína

Thalassiosira pseudonana

gb|AAFD02000006.1|

Homólogo con Cisteína

gb|AAFD02000004.1|

Homólogo con Cisteína

2009

GENOMAS PROTISTA

QUERY

TBLASTN

EXONERATE.FA

EXONERATE.GFF

cDNA

PROTEÍNA

PREDICCIÓN

SECIS

ExPASy

Aureococcus anophagefferens

Scaffold 1

Homólogo con Cisteína

Scaffold 2

Homólogo con Cisteína

Scaffold 2

Homólogo con Cisteína

Scaffold 2

Selenoproteína

Scaffold 3

Homólogo con Cisteína

Scaffold 4

Homólogo con cisteína

Scaffold 4

Selenoproteína

Scaffold 5

Homólogo con cisteína

Scaffold 11

Homólogo con cisteína

Scaffold 15

Scaffold 16

Homólogo con cisteína

Scaffold 56

Selenoproteína

Emiliania huxleyi

scaffold_21

Homólogo con cisteína

scaffold_24

Homólogo con cisteína

scaffold_27

Homólogo con cisteína

scaffold_28

Homólogo con cisteína

scaffold_32

scaffold_68

scaffold_107

Homólogo con cisteína

scaffold_113

Homólogo con cisteína

scaffold_144

Homólogo con cisteína

scaffold_153

Homólogo con cisteína

scaffold_168

Homólogo con cisteína

scaffold_192

Homólogo con cisteína

scaffold_200

Homólogo con cisteína

scaffold_1312

Homólogo con cisteína

scaffold_1635

Homólogo con cisteína

Entamoeba dispar

Entamoeba invadens

Homólogo con cisteína

Eimeria tenella

Homólogo con cisteína

Leishmania braziliensis

Homólogo con cisteína

Leishmania mexicana

Homólogo con cisteína

Neospora caninum

Contig_0012951

Homólogo con cisteína

Contig_0010553

Homólogo con cisteína

Plasmodium berghei

Plasmodium chabaudi

Perkinsus marinus

>gb|AAXJ01000478.1|

Homólogo con cisteína

>gb|AAXJ01002812.1|

Homólogo con cisteína

Toxoplasma gondii GT1

Homólogo con cisteína



volver arriba

Discusión

Para poder anotar esta família de selenoproteínas en los múltiples genomas analizados, la mayoría de veces hemos utilizado como proteína query un homólogo con cisteína de la SelR1 humana que identificaron en Dictyostelium purpureum un grupo de estudiantes del curso 2008/2009.

A veces, cuando queríamos generar la anotación mediante el programa Exonerate, éste no mostraba ningún resultado o bien la predicción no era suficiente para el análisis, porque el alineamiento no contenía la cisteína homóloga de interés.

En primera lugar, utilizamos la opción –exhaustive yes para obtener un alineamiento con la máxima sensibilidad posible. En algunos casos esta función fue suficiente para solucionar el problema (por ejemplo en el genoma de Giardia intestinalis), pero en la mayoría de ellos fue necesario aplicar otro método para la anotación.

Dado que el problema podía residir en la query utilizada, comprobamos en NCBI que el trozo de secuencia predicha en el genoma analizado correspondía a un miembro de la familia SelR o un miembro de una familia cercana mediante la herramienta BLASTP. La mayoría de veces, la secuencia sí correspondía con la familia SelR, pero en algunas ocasiones (por ejemplo Aureococcus anophagefferens y Perkinsus marinus) correspondía con una selenoproteína de la misma familia, por ejemplo MsrB. Entonces, utilizábamos la secuencia aminoacídica en formato fasta de esta proteína encontrada en NCBI como query para anotar los genomas mediante Exonerate, para ver si así la predicción se extendía a la región deseada. Muchas veces en NCBI encontrábamos la selenoproteína descrita en el genoma que estábamos analizando, de manera que utilizándola como query encontrábamos la misma secuencia. Cuando la secuencia más similar encontrada en NCBI correpondía a otro organismo, podíamos predecir la selenoproteína en el genoma problema, por ejemplo en Aureococcus anophagefferens.

No obstante, no siempre obteníamos un resultado satisfactorio mediante el uso de estas querys, por lo que optamos por construir una secuencia híbrida para utilizarla como query. El híbrido se construyó con el trozo predicho en el genoma problema (a nivel de blast o a nivel de Tcoffee, dependiendo de si podíamos obtener un resultado mediante el alinamiento global) y el resto de secuencia de la query utilizada. Así, Exonerate encontraba un trozo de secuencia idéntica y la mayoría de veces extendía la predicción, alineando la cisteína homóloga en el genoma analizado. Esta estrategia, combinada con la opción –exhaustive yes de Exonerate, nos permitía encontrar prácticamente todas las selenoproteínas en los genomas estudiados.

En los casos en que al realizar el alineamiento global con Tcoffee la secuencia predicha en el genoma problema no incluía el residuo de Cys deseado, utilizábamos la misma estrategia que con Exonerate: buscando una query mejor con NCBI o construyendo un híbrido a partir de la secuencia predicha y la query utilizada.

No realizamos un nuevo TBLASTN con la nueva query hallada (ya sea un híbrido o la hallada en NCBI) porque se hubiera alineado en la misma región que la query inicial: tanto el híbrido como la query de NCBI tienen una región idéntica a lo que se ha predicho mediante la query de D.purpureum, por tanto pudimos aprovechar el TBLASTN realizado con ésta para ejecutar Exonerate sin temor de no haber incluido la misma región.

Se han de comentar algunos problemas en particular. Por ejemplo, cuando analizábamos el genoma de Neospora caninum, vimos que utilizando la query de Dictyostelium purpureum la secuencia predicha en el genoma problema no incluía el residuo de Cys deseado, por lo que optamos por utilizar las estrategias del híbrido y del NCBI anteriormente descritas. No obstante, obteníamos el mismo resultado en los tres casos: no podíamos extender la predicción a la cisteína homóloga a la selenocisteína. Entonces, decidimos mirar dónde se situaba la secuencia nucleotídica que codificaba por la proteína predicha dentro del contig con el alineamiento idóneo, y descubrimos que la secuencia nucleotídica de la proteína predicha se situaba al final de dicho contig, de manera que no encontrábamos ninguna selenoproteína debido a la falta de genoma secuenciado o de un correcto ensamblaje.

Otro genoma problemático fue el de Entamoeba terrapinae. Encontramos dos hits buenos al realizar el TBLASTN e investigamos qué proteína predecíamos a partir de cada hit en el genoma de E.terrapinae. Al hacer el alineamiento global con Tcoffee de las dos predicciones con la query, vimos que la predicción era la misma, sólo diferían en unos pocos nucleótidos del principio. Para poder determinar si este resultado era debido a un fenómeno de duplicación o era un error de ensamblaje del genoma de E.terrapinae, hicimos un alineamiento global de los dos cDNAs a partir de los cuales traducimos cada una de las proteínas predichas. El resultado fue que los dos cDNA eran idénticos, por lo que concluímos que ese resultado era debido a un error de ensamblaje de los contigs (si se tratase de una duplicación encontraríamos alguna diferencia en la secuencia nucleotídica aunque la secuencia aminoacídica fuese la misma).

En Emiliana huxleyi hemos visto que se han dado diversos casos de duplicación génica ya que las proteínas resultantes son muy parecidas. Además podemos ver que las proteínas 12 y 13 (Scaffold 192 y Scaffold 200) son el resultado de un artefacto en el ensamblaje del genoma ya que son exactamente iguales.

Por último, comentar el caso del genoma de Aureococcus anophagefferens. Muchos contigs tenían un evalue significativo, por lo que anotamos una proteína a partir de cada uno de ellos. Curiosamente, ninguno predecía la misma selenoproteína, por lo que deducimos que los resultados eran debidos a un fenómeno de duplicación que tuvo lugar hace bastante tiempo, por lo que cada gen duplicado divirgió del gen ancestral y originó selenoproteínas diferentes. No obstante, al observar el alineamiento realizado mediante tblastn en el contig scaffold_56 i scaffold_15 a partir de la query D.purpureum, vimos que la secuencia donde se predecía la teórica selenoproteína en cada contig era idéntica, de manera que sólo analizamos el contig scaffold_56 porque esta identidad se debía a un error de ensamblaje del genoma de A.anophagefferens.

En la tabla superior de resultados, el archivo correspondiente a la proteína predicha en cada genoma contiene más detalladamente qué procedimiento se ha seguido en cada uno de los casos para encontrar la selenoproteína finalmente hallada, así como problemas surgidos y explicación del resultado final.

Finalmente, realizamos un ALINEAMIENTO GLOBAL mediante Tcoffee de todas las proteínas predichas de SelR en cada organismo que puede ser visualizado clicando aquí. A modo de conclusión, podemos observar que la mayoría de proteínas de la familia SelR predichas en los distintos genomas son homólogos con cisteína, a excepción de 3 selenoproteínas descritas en el genoma de Aureococcus anophagefferens (no identificadas por estudiantes de cursos anteriores).

Para descargar los archivos en formato comprimido haz click aquí.

volver arriba