Selenoproteïnes de Macaca nemestrina

CONCLUSIONES

El objetivo de este trabajo consiste en anotar las Selenoproteínas, así como los homólogos de Cisteína y la maquinaria traduccional del genoma de Macaca nemestrina. Para ello, hemos llevado a cabo un análisis in silico en el que se ha predicho el selenoproteoma de dicha especie por homología respecto al genoma de Homo sapiens. Además, hemos utilizado un programa que permite encontrar los elementos SECIS, característicos de este tipo de proteínas, para afianzar nuestras predicciones. Hemos decidido utilizar las secuencias de Selenoproteínas pertenecientes a Homo sapiens, ya que se trata de una especie relativamente cercana desde el punto de vista filogenético cuyo genoma es el mejor anotado hasta el momento. Es cierto que Macaca mulatta es una especie todavía más cercana, pero su genoma no está tan bien anotado y los resultados a penas habrían diferido.

En total, hemos predicho los siguientes elementos:

23 Selenoproteínas: DI1, DI2, DI3, GPx1, GPx2, GPx3, GPx4, GPx6, Sel15, SelH, SelI, SelK, SelM, SelN, SelO, SelR1, SelS, SelT, SelV, SPS2, TR1, TR2, TR3.

10 homólogos de Cisteína u otros homólogos: GPx5, GPx7, GPx8, SelR2, SelR3, SelU1, SelU2, SelU3, SelW1, SelW2.

7 proteínas de maquinaria traduccional: SecS, eEFsec, PSTK, SECp43, SBP2, SPS1, SPS2.

En general, todas las familias de Selenoproteínas constituidas por varios miembros (incluyendo homólogos), presentan partial sequence similarity. Es decir, parte de sus secuencias son altamente similares a otras en los demás miembros de la familia. Es el caso de TR, DI, GPx (especialmente, en la familia de GPx, entre los Scaffolds posibles de cada una de éstas, se encuentran los Scaffolds correspondientes a GPx1 y GPx2), SelR (especialmente entre SelR2 y SelR3), y SPS (el segundo Scaffold más significativo de SPS1 coincidía con SPS2 y viceversa).

El caso de las GPx es particularmente interesante. GPx5 y GPx6 se encuentran en el mismo Scaffold, pero en cadenas opuestas. Podría deberse a que son las únicas dos proteínas de la misma familia que encontramos en el mismo cromosoma (Información en Ensembl), lo cual observamos tanto en Macaca mulatta, como en Homo sapiens. Esto podría ser consecuencia de la duplicación en tándem de GPx3 (Mariotti et al, 2012). Más específicamente, la secuencia coincidente con GPx5 era el cuarto Scaffold más significativo. El primero y el segundo se correspondían con GPx1 y GPx2.

En general, tal como se esperaba, sólo aquellas secuencias correspondientes a Selenoproteínas presentaban un elemento SECIS en la región 3'UTR de su cadena. Sin embargo, hemos de mencionar que no hemos encontrado un elemento SECIS correspondiente a SelW1, a pesar de que según la literatura debería tenerlo, ya que es clasificada como Selenoproteína (Mariotti et al, 2012; Vyacheslav et al, 2014). Podría ser que Macaca nemestrina hubiese perdido el elemento SECIS para SelW1, perdiendo ésta su función y pasando a ser un pseudogen. Por otra parte, aquellos casos en los que SECISearch3/Seblastian no encontró selenoproteínas para nuestras predicciones pero sí un elemento SECIS, se han considerado como Selenoproteínas, atribuyéndolo a problemas con nuestra predicción o con la anotación en la base de datos.

Otro caso a destacar es el de SelK. Pese a haberse predicho de forma correcta, se han identificado secuencias similares a la SelK de Macaca nemestrina en diferentes regiones. Las características de estas regiones, como la presencia de múltples codones STOP diferentes a UGA, nos hacen pensar que podrían tratarse de secuencias génicas truncadas, originadas por duplicación. Es decir, que podrían tratarse de pseudogenes. Esto es consistente con la literatura, en la que atribuyen este fenómeno al pequeño tamaño de dicha proteína. Esto último podría aplicarse al caso de SPS2.

El procedimiento utilizado en este trabajo, sin embargo, presenta varias limitaciones. Al tratarse de una aproximación por homología, sólo podemos predecir secuencias en base a las ya anotadas en otras especies. Por tanto, se necesitaría llevar a cabo un proceso de anotación de novo para encontrar nuevas Selenoproteínas no descritas hasta ahora. Además, debido a las restricciones o filtros utilizados para obtener Hits más significativos, puede que hayamos perdido cierta información y que hayamos desechado secuencias con Secs que simplemente han divergido lo suficiente como para no pasar dichos filtros. Tampoco hemos tenido en cuenta todas las secuencias proteicas de las base de datos SelenoDB, sino sólo aquellas que se correspondían con Selenoproteínas, maquinaria traduccional, y otros miembros de las familias de Selenoproteínas que podrían ser homólogos. Es decir, la selección de Queries se ha llevado a cabo teniendo en cuenta información previa.

Además, teniendo en cuenta que se trata de una predicción por homología, utilizar como referencia una especie más cercana, como Macaca mulatta, habría permitido obtener mejores resultados. Sin embargo, y como hemos dicho, las Selenoproteínas de Homo sapiens son las mejor anotadas hasta el momento y presentan una alta homología a la especie en estudio.

Por otra parte, en relación a los programas utilizados, en caso de observar aminoácidos representados por una X en T-Coffee, no podríamos saber si estas X corresponden con Secs, ya que también se puede alinear con codones STOP. En estos casos, como por ejemplo el de SBP2, decidimos fijarnos en otros resultados, como el Genewise. También nos hemos encontrado casos (SelO y SelN) en los que se identifica un sólo Scaffold con un gran número de Hits, lo que hipotetizamos que afecta al correcto alineamiento de T-Coffee.

En conclusión, remarcamos la importancia de los métodos in silico para aportar nueva información sobre el selenoproteoma de las diferentes especies, como es el caso de este trabajo sobre Macaca nemestrina. Sin embargo, nuevas investigaciones experimentales y anotaciones de novo son necesarias para encontrar nuevas Selenoproteínas no descritas hasta ahora. Esto ayudaría a obtener bases de datos con múltiples especies y mejores anotaciones que las actualmente presentes, lo que mejoraría la eficacia de este tipo de estudios. Así pues, no podemos decir que el selenoproteoma de Macaca nemestrina haya quedado completo.

	Enlaces de interés

Wikipedia	SelenoDB	Bioinformática UPF

Autores:	Miriam Rivera	Paola Satisteban
Anna Sochilina	Hugo Ramos	Carla Cuní