Mediante la búsqueda de secuencias homólogas a selenoproteínas ya conocidas hemos conseguido identificar 31 posibles selenoproteínas en el genoma de Meleagris gallopavo.
Para contrastar nuestros resultados hemos utilizado SelenoProfiles y hemos podido comprovar que nuestros resultados son coincidentes en 24 de las 31 selenoproteínas. SelenoProfiles ha conseguido identificar 3 selenoproteínas que se nos habían pasado por alto y nosotros hemos identificado 4 selenoproteínas que SelenoProfiles no ha reportado. Esta variabilidad la podemos atribuir a múltiples diferencias metodológicas. Entre ellas, destacamos que:
- Alineamientos pairwise, tBLASTn vs profiles, PSI-tBLASTn: Nuestro método se basa en identificar secuencias homólogas mediante alineamientos de pares de secuencias utilizando tBLASTn. Selenoprofiles, en cambio, utiliza perfiles de las distintas familias de selenoproteínas elaborados a partir de alineamientos múltiples de miembros de dichas familias de distintos organismos. Además utliliza PSI-tBLASTn en vez de tBLASTn. La búsqueda de homología utilizando perfiles augmenta la sensibilidad y permite detectar proteínas de la misma família a pesar de que estén muy separadas filogenéticamente. Un ejemplo sería Sel K. En SelenoDB, Sel K tiene homólogos en dos vertebrados (Homo sapiens y Mus musculus), un nemátodos y dos insectos. Sin embargo, tBLASTn sólo reporta como homólogas las de los dos vertebrados, debido a que las otras han divergido demasiado, pudiendo provocar la pérdida de algunos resultados si no hay la selenoproteína anotada en especies cercanas.
-SelenoDB: En nuestro método partimos de un total de secuencias pubilcadas en SelenoDB en las que solo hay 3 vertebrados: Homo sapiens, Pan troglodytes y Mus musculus. SelenoProfiles, en cambio, usa un dataset más amplio y actualizado como query ya que los perfiles se han construido usando todos los homólogos de selenoproteínas conocidos hasta los últimos años. Esto hace que perdamos sensibilidad si queremos detectar homólogos de selenoproteínas distantes a las de estas tres especies. En algunas ocasiones nuestra predicción de selenoproteínas respecto SelenoDB no ha detectado la selenocisteína cuando esta se encontraba muy al extremo 3' por problemas en el alineamiento. SelenoProfiles, en cambio, dispone de secuencias más cercanas, como la de Gallus gallus, y esto permite detectar selenocisteínas o homólogos con cisteína que antes no quedaban alineadas con el aminoácido correcto. Un ejemplo de este caso sería Sel K.
-Asumción a priori de la longitud del gen vs. exonerate cicl$iacuteco Otra diferencia es que SelenoProfiles hace varias predicciones cíclicas con Exonerate hasta estar seguro de que la predicción comprende todos los exones y luego utiliza la predicción de Exonerate como query para acabar de determinar la estructura del gen utilizando Genewise. Nosotros hemos decidido a priori asignar un margen de 15kb por ambos lados del hit de tBLASTn para delimitar el tamaño de la región génica en la que realizaremos la predicción y hemos usado Genewise y Exonerate en paralelo. Por este motivo podemos haber perdido algún exón en los extremos. En el caso de TR3, se pierde la parte 3' de la proteína, que sí se predice en la misma región del genoma con Selenoprofiles.
- Elección de la mejor predicción: Uno de los puntos en los que peor ha funcionado nuestro método es en la elección de la mejor predicción ya que nos hemos basado en el score del pairwise-alignmentde secuencias en t_coffee, que le da mucha más importancia a la homología de secuencia que a la longitud de la predicción. Un inconveniente de elegir la predicción en función de la longitud de la secuencia es que a veces las secuencias más largas contienen frame-shifts. SelenoProfiles tiene en cuenta todos estos puntos, siendo las predicciones de mayor calidad. Por ejemplo, la predicción más larga de SelN contiene un frame-shift mientras que la que escoge nuestro programa de acuerdo con el score del t_coffee pair-wise alignment es un poco más corta pero no tiene ningún frame-shift.
-Filtraje por longitud de la predicción: SelenoProfiles hace un filtraje que excluye las secuencias que tengan menos de un 40% de la secuencia alineada o menos de 60 aa. Si aplicamos este filtro perdemos la predicción de un posible homólogo con cisteína parecido a Rdx12 (aunque en SelenoDB las proteínas que dan hit están anotadas como SelW2 a pesar de que no esté presente en vertebrados). Este se encuentra en un scaffold y sólo tiene 33aa pero tiene una homología muy alta (score =100). El hecho de que tenga una longitud corta no tiene por que decir que sea espuria, puede deberse a defectos en la calidad de los genomas que se secuencian. En relación con esto, la presencia de gaps muy grandes también puede hacer que perdamos hits. Por ejemplo, en el resultado de SelenoProfiles de Mariotti et al., 2010 Gallus gallus parecía no tener SPS2 pero en realidad hay evidencias de que este sí existe en Gallus gallus porque hay ESTs que lo respaldan en la base de datos de NCBI (Mariotti et al. 2010). Nosotros sí hemos encontrado SPS2.
-SECISearch: Finalmente, la predicción de elementos SECIS que hemos llevado a cabo no dió muy buenos resultados, ya que encontramos varios casos en que nuestra búsqueda con SECISearch no da resultados, mientras que sí los da SelenoProfiles. Razones posibles serían que el treshold energético y el perfil elegidos por defecto no siempre serían los adecuados. SelenoProfiles realiza la búsqueda con distintos perfiles si el perfil estándar no consigue predecir ningún elemento, de modo que consigue predecir más elementos SECIS que nuestra búsqueda. Otra posible fuente de error sería escanear una región demasiado pequeña. SelenoProfiles escanea 3kb a partir del final del último exón y nosotros hemos escaneado 10kb a partir de la posición final del último hit de tBLASTn. Podría pasar que hubiera algún exón en 3' que no diera hit en el tblastn de modo que la región escaneada en nuestro caso podría ser demasiado corta. De todos modos, cabe destacar que la presencia de SECIS respalda la predicción de la selenoproteína, pero el hecho de no predecirlos no nos hace descartar la predicción de la selenoproteína ya que la proteína podría tener un elemento SECIS no caracterizado o bien este podría localizarse fuera de la región escaneada.
Gallus gallus es el organismo filogenéticamente más cercano a Meleagris gallopavo del cual conocemos el selenoproteoma. Por lo tanto, esperamos encontrar un selenoproteoma similar al de Gallus gallus que hemos consultado en la publicación de SelenoProfiles (Mariotti et al., 2010), y en el artículo en el que caracterizan el selenoproteoma de 44 vertebrados recientemente secuenciados (Mariotti et al., 2012). En la siguiente tabla podemos observar el número de selenoproteínas predichas clasificadas por família y aminoácido presente en la posición donde debería encontrarse la selenocisteína. Podemos ver los resultados de los estudios arriba mencionados junto a nuestros resultados. Como podemos ver, nuestros resultados no difieren de forma sustancial respecto a lo esperado.
Gallus gallus (Mariotti et al., 2010) | Gallus gallus (Mariotti et al., 2012) | Meleagris gallopavo (presente estudio) | |||||||||
selenocisteína | cisteína | otros | selenocisteína | cisteína | selenocisteína | cisteína | otros | ||||
Gpx | 1 | 2 | 4 | 4 | 1 | ||||||
DI | 3 | 3 | 2 | ||||||||
MsrA | 1 | 1 | 2 | ||||||||
Sel15 | 1 | 2 | |||||||||
Fep15 | |||||||||||
SelH | 1 | 1 | |||||||||
SelI | 1 | 1 | 1 | 1 | |||||||
SelJ | 1 | ||||||||||
SelK | 1 | 2 | 1 | 1 | |||||||
SelK ins. | 4 | ||||||||||
SelL | |||||||||||
SelM | 1 | ||||||||||
SelN | 1 | 1 | |||||||||
SelO | 1 | 1 | 1 | 1 | |||||||
SelP | 1 | 1 | 2 | 2 | |||||||
SelR | 1 | 1 | 1 | 1 | 1 | ||||||
SelS | 1 | 1 | 1 | 1 | |||||||
SelT | 1 | 1 | 1 | ||||||||
SelU | 1 | 2 | 1 | 1 | 1 | ||||||
SelV | 1 | 11 | |||||||||
SelW | 1 | 1 | |||||||||
TR | 3 | 1 | 3 | 3 | |||||||
SPS | 2 | 2 | 1 | ||||||||
eEFSec | 1 | 1 | |||||||||
PSTK | 2 | ||||||||||
secp43 | 1 | ||||||||||
SBP2 | 2 | 1 | |||||||||
SecS | 1 | ||||||||||
selenocisteína | |||||||||||
cisteína | |||||||||||
otros | |||||||||||
maquinaria | |||||||||||
A continuación comentaremos más detalladamente nuestros resultados por famílias de selenoproteínas.
Gpx:
Una de las famílias más amplias de selenoproteínas. Meleagris gallopavo posee selenoproteínas de esta família (posiblemente 5, una de ellas homóloga con cisteína, resultados concordantes con los esperados), aunque no podemos confirmar con seguridad de qué parálogos se tratan.
DI:
Encontramos una menos de las esperadas, ambas con selenocisteína. Podemos haber perdido un hit, o bien Meleagris gallopavo podría haber perdido una de las copias.
Sel M:
Predicha en Gallus gallus por Mariotti et al. (2012). A pesar de que se encontró en el genoma de Meleagris gallopavo con homología con SelM , hemos descartado la posibilidad de que se trate de una selenoproteína durante el manual curing ya que la selenocisteína no está alineada.
TR:
Otra de las famílias de selenoproteínas con más parálogos. Se han encontrado 3, las esperadas para un pariente cercano de Gallus gallus según Mariotti et al. (2010) y Mariotti et al. (2012).
Sel O:
Hemos encontrado una SelO con selenocisteína y otra proteína que no estamos seguras de que sea un homólogo con cisteína ya que presenta largas regiones con un mal alineamiento.
Sel P:
Encontramos dos copias con una selenocisteína, en concordancia con los resultados de Mariotti et al. de 2012 en Gallus gallus. También identificamos un homólogo con glutamina, de forma parecida a lo que encuentran en Mariotti et al. (2010). Durante el manual curing descartamos que se trate de una selenoproteína.
Este caso merece mención a parte. Encontramos una secuencia aminoacídica muy corta en un scaffold que anotamos como SelW2 basándonos en las query que nos proporcionó SelenoDB. Las proteínas que se alineaban en esta región son homólogos de Homo sapiens y Mus musculus, dos mamíferos vertebrados. Según Mariotti et al. (2012), sólo un homólogo remoto de SelW2 con cisteína está presente en los mamíferos vertebrados: Rdx12. De hecho, nosotros encontramos esta pequeña secuencia que también parece ser un homólogo con cisteína. Así pues, descartaríamos la presencia de SelW2 en Meleagris gallopavo pero hipotetizaríamos la presencia de Rdx12. SelenoProfiles pasó por alto este resultado porque la secuencia alineada es más corta de 60aa.
MsrA:
En este caso nuestros resultados no concuerdan con los esperados (tampoco en concordancia entre ellos). Encontramos dos hipotéticas MsrA, ambas homólogas con cisteína, como todos los homólogos de MsrA en SelenoDB. No concuerda con los resultados de Gallus gallus de (Mariotti et al., 2010) y (Mariotti et al., 2012).
Meleagris gallopavo presenta una selenocisteína como era de esperar, ya que Sel U1 pasa a homólogo con cisteína de manera independiente en mamíferos (así lo comprobamos con el homólogo en Homo sapiens de SELENODB) y amfibios. En SelenoDB también vemos que C. Elegans presenta un homólogo con cisteína. Es interesante que en las aves no se haya perdido la selenocisteína mientras que parece que se ha perdido de forma independiente en muchos linajes. Con nuestro método no lo detectamos, pero SelenoProfiles nos reporta un homólogo con cisteína de Sel U en Meleagris gallopavo en el scaffold Z. Podría tratarse de una duplicación.
Sel R:
Se predicen dos copias de SelR: Sel R1 (con selenocisteína) y Sel R3 (homólogo con cisteína). El caso de Sel R3 es curioso, ya que vemos que en el alineamiento con el homólogo Drosophila melanogaster), el método de predicción exoniza una región que no está exonizada en el resto de homólogos. Hemos visto que hay una corta secuencia aminoacídica repetida en este caso que contiene la cisteína que alinea con la selenocisteína. Viendo la predicción de SelenoProfiles, vemos que una de las repeticiones que observamos en el alineamiento con la SelR3 de Drosophila ya no se exoniza sino que se encuentra en un intrón. Este caso podría ser interesante y requeriría un estudio más riguroso.
Sel 15, Sel H, Sel K, Sel N, Sel T, Sel S:
Todas presentan una copia en Meleagris gallopavo según nuestro análisis (todas con Sec), de acuerdo con los resultados encontrados en Gallus gallus. En Sel S no hemos detectado uno de los homólogos con cisteína encontrados en Gallus gallus según Mariotti et al (2010).
Proteínas de la maquinaria de traducción de las selenoproteínas:
Hemos detectado eFSec, SPS1 (encargadas de la síntesis de la selenocisteína) y SBP2 (encargada de la incorporación de Sec en las selenoproteínas). De esta forma podríamos confirmar como se esperaba que Meleagris gallopavo posee la capacidad para sintetizar selenoproteínas. Vemos que no hemos identificado muchas de las otras proteínas implicadas en la síntesis de selenoproteínas. En nuestro caso se debe a que muchas de las proteínas de la maquinaria no estaban incluídas en SelenoDB.