Para anotar la familia de selenoproteínas MsrA en los genomas de protistas, utilizamos como proteína query una selenoproteína que se identificó en Chlamydomonas reinhardtii en los trabajos de años anteriores.
Cuando quisimos generar una anotación del gen que daba lugar a la proteína mediante el programa Exonerate, tuvimos principalmente dos problemas: el primero fue que éste no nos proporcionaba ningún resultado; y el segundo fue que la predicción obtenida con este programa no era suficiente para el análisis porque no se alineaba la selenocisteína de nuestra query con nuestro genoma.
Para poder solucionar estos problemas utilizamos la opción --exhaustive yes cuando aplicábamos Exonerate, así nos asegurábamos que extraíamos todos los exones que esperábamos. En determinados casos esta opción fue suficiente para generar la anotación correcta del gen como por ejemplo en el genoma de Emiliania huxleyi (scaffold 1896 y 633) o en Trypanosoma cruzi.
Si aún así no se nos anotaba correctamente el gen, comprobávamos en NCBI que la secuencia predicha en el genoma analizado correspondía a un miembro de la familia de la MsrA. En todos los casos que utilizamos esta opción nos confirmó que se trataba de un miembro de esta familia.
Otra opción que aplicamos, fue la creación de lo que llamamos una query híbrida. Se utilizó este método en esos casos en que la selenocisteína de nuestra query Chlamydomonas reinhardtii no se alineaba con el genoma que estábamos analizando. Por esta razón, hicimos una query híbrida para facilitar que el programa Exonerate extendiera la predicción al encontrar un trozo de secuencia idéntica. Para hacer una query híbrida cogíamos el trozo de la secuencia de nuestra query que no se nos había alineado y el resto, la secuencia que se había predicho de nuestro genoma al hacer un tBLASTn. Los genomas en los que tuvimos que utilizar una query híbrida son Emiliania huxleyi (scaffold 11), Thalassiosira pseudonana, Toxoplasma gondii GT1, Neospora caninum, Aureococcus anophagefferens y Perkinsus marinus.
Otra opción fue buscar en NCBI en la opción protein BLAST la secuencia más parecida al resultado del alineamiento con tBLASTn con lo que pudimos obtener la proteína entera de MsrA y la utilizamos como una nueva query. Además se comparó esta nueva query con la query antigua para poder identificar la posición de la Cys correspondiente a la Sel de la otra query. Esto se aplicó en el caso del genoma Giardia intestinalis (lamblia).
No hemos realizado un nuevo tBLASTn con la nueva query hallada (ya sea un híbrido o la hallada en NCBI) porque se alinearía en la misma región que la query inicial: tanto el híbrido como la query de NCBI tienen una región idéntica a lo que se ha predicho mediante la query de Chlamydomonas reinhardtii, por tanto podemos aprovechar el tBLASTn realizado con ésta para ejecutar Exonerate sin temor de no haber incluido la misma región.
Hay que comentar algunos casos especiales donde se ha comprobado que los diferentes contigs se trataban de duplicaciones biológicas o bien de errores en el ensamblaje del genoma que estábamos analizando.
Expliquemos primero el caso del genoma Emiliania huxleyi anotado en el 2009. Cuando realizamos el tBLASTn de este genoma con nuestra query, nos dieron varios contigs que tenían un evalue significativo. Al obtener la secuencia proteíca predicha de cada hit nos dimos cuenta que varios de ellos se trataban de errores de ensamblaje ya que las secuencias proteícas eran la misma. Esto lo pudimos confirmar haciendo un Tcoffee con las secuencias nucleotídicas de cada hit. Vimos que no habían diferenencias, por tanto, se trataban de errores de ensamblaje. Los hits que son errores de ensamblaje es el scaffold 8 con el scaffold 184, scaffold 11 con el scaffold 669, scaffold 1896 con el scaffold 633 y el scaffold 48, y por último, el scaffold 25 con el scaffold 1258. Además, tanto el scaffold 11, el scaffold 669, el scaffold 32 y el scaffold 614 tenían dos hits que observando las secuencias proteícas nos dimos cuenta de que había un solapamiento de las secuencias proteícas de dichos hits. Por tanto, pudimos deducir que se trataban de dos exones separados por un intrón.
Otro caso parecido nos sucedió al analizar el genoma Phytophthora sojae, este genoma contenía un contig con dos hits significativos. Al observar las secuencias proteicas obtenidas nos dimos cuenta que uno de los hits estaba contenido dentro del otro, y por tanto, este solapamiento se trata de dos exones separados por un intrón.
En el caso de Perkinsus marinus, el tBLASTn nos dio dos contigs significativos, al comparlos vimos que los dos eran muy similares aunque las posiciones son diferentes. En este caso se trata de una duplicación génica reciente porque hay algunas diferencias entre las secuencias de cDNA de los dos contigs.
Otro caso muy similiar al anterior es el genoma Phytophthora ramorum. Al realizar un tBLASTn obtuvimos un contitg con dos hits significativos, cuyas secuencias son similares por lo que consideramos que se trataba de una duplicación.
Por último comentar el caso del genoma Monosiga brevicollis, como vemos en el tBLASTn sólo hay un hit significativo. La selenocisteína de la query Chlamydomonas reinharditii no se alineaba con la secuencia de este genoma, por eso hicimos una query híbrida para facilitar que el Exonerate extendiera la predicción al encontrar un trozo de secuencia idéntica. Al realizar el Exonerate vimos que la selenocisteína de nuestra query híbrida seguía sin alinearse con las secuencia del genoma. Por eso, buscamos en el NCBI una proteína que contuviese la secuencia predicha de nuestro genoma. Encontramos esta secuencia en la proteína Monosiga brevicollis MX1 (XP_001750979.1) y la utilizamos como query, de igual modo, no obtuvimos ningún resultado. Por último, aplicamos la secuencia de este genoma en el Expasy que traduce la secuencia de cDNA a secuencia aminoacídica en los seis frames posibles. Entonces buscamos el TGA anterior a nuestra secuencia que se nos alineaba y vimos que correspondía a una región intrónica en lugar de tratarse de una selenocisteína. Concluímos que la secuencia alineada con el tBLASTn de nuestro genoma corresponde a un dominio de la proteína.
En la tabla superior de resultados, el archivo correspondiente a la proteína predicha en cada genoma contiene más detalladamente qué procedimiento se ha seguido en cada uno de los casos para encontrar la selenoproteína finalmente hallada, así como problemas surgidos y explicación del resultado final.
Finalmente, realizamos un ALINEAMIENTO GLOBAL mediante Tcoffee de todas las proteínas predichas en cada organismo que puede ser visualizado clicando aquí. A modo de conclusión, podemos observar que tan sólo hay 8 selenoproteínas en las proteínas predichas en los genomas anotados del 2009 y 2010; cuatro se encuentran en el genoma Aureococcus anophagefferens, tres en el genoma de Emiliania huxleyi (no identificadas en los trabajos de otros años) y una en Thalassiosira pseudonana. El resto de proteínas predichas son homólogos con cisteína.
Para descargar los archivos en formato comprimido haz click aquí.