Maquinaria de síntesis Proteínas homólogas en cisteína Selenoproteínas Nuevas selenoproteínas

1. Maquinaria de síntesis

Nombre Estructura Proteína CDS Secuencia genómica
eEFsec Imagen PM_001 CM_001 GM_001
SBP2 Imagen PM_002 CM_002 GM_002
SPS Imagen PM_003 CM_003 GM_003
Secp43 Imagen PM_004 CM_004 GM_004
Slap/LP Imagen PM_005 CM_005 GM_005
PSTK / / / /
Sec-tRNASec Imagen / / GM_006


Factor de elongación

La proteína eEFsec es el factor eucariota de elongación de selenocisteínas. Este factor ejerce su función durante el proceso de traducción y durante el proceso de síntesis del Sec-tRNASec. En la traducción, el complejo formado por el eEFsec, el Sec-tRNA[Ser]Sec y la SBP2/SECIS se unen al ribosoma con el fin de incorporar el Sec-tRNA[Ser]Sec al site A del ribosoma, de tal modo que la maquinaria de traducción reconozca el codón TGA como un codón de selenocísteina y no como un codón STOP. Durante la síntesis, uniendo los diferentes componentes del proceso o bien uniéndose únicamente al tRNA.

El primer paso en el proceso de búsqueda de la eEFsec en P.knowlesi fue determinar qué proteína homologa utilizaríamos para el BLAST. En la base de datos de SelenoDB solo se dispone del eEFsec de H.sapiens, una especie muy lejana en la escala evolutiva a P.knowlesi. Por este motivo, iniciamos una búsqueda en el NCBI para encontrar un eEFsec conocido de una especie más cercana evolutivamente a la nuestra. El resultado fue que encontramos una hipotética eEFsec para P.falciparum, una especie que pertenece al mismo género que nuestro organismo (XP_001351031).
Con esta proteína realizamos un TBLASTN en la terminal contra la base de datos del genoma de P.knowlesi que obtuvimos de PlasmoDB. El resultado del BLAST fue un hit con un e-value muy significativo de 3·10-53 en el cromosoma 2. A continuación, manipulamos con la ayuda de diversas comandas el archivo del genoma para extraer la región del cromosoma donde se encontraría el gen candidato de eEFsec. Con esta información el programa GeneWise nos predijo la situación y características del gen candidato. Los resultados mostraron un gen que contiene únicamente un exón de 2.106pb que codifica para una proteína de 702aa.
Con la proteína predicha y la de P.falciparum realizamos un alineamiento global en T-COFFEE para evaluar su nivel de homología, con un score de 84. Con estos resultados decidimos realizar dos tests para evaluar la calidad de la proteína predicha. Así con el programa InterProScan buscamos los dominios presentes en la proteína eEFsec de Homo sapiens , en la de P.falciparum, y en la de P.knowlesi. La proteína de H.sapiens y nuestra proteína predicha para P.knowlesi presentaban un dominio característico del factor de elongación para selenocisteína PTHR23115:SF30 mientras que la hipotética eEFsec de P.falciparum no presentaba el mencionado dominio. Por otra parte, al realizar un TBLASTN con la secuencia de la proteína predicha contra los CDS de P.knowlesi obtuvimos un hit del 100% de identidad con un e-value de 0.0. Los resultados de ambos test establecen que nuestra predicción para la eEFsec de P.knowlesi es significativa.

SECIS binding protein 2

La SBP2 es la SECIS binding protein. Esta proteína ejerce su función durante el proceso de traducción de la selenoproteína. Actualmente, existen diversas hipótesis (Allmang and Kroll, 2006) que explican el mecanismo de su función pero como idea general se podría establecer que esta radica en formar un complejo con la eEFsec, el Sec-tRNA[Ser]Sec y el elemento SECIS con el fin de indicar al ribosoma que determinado codón TGA no es un codón de STOP sino que codifica para una selenocisteína.

En la base de datos SelenoDB solo se dispone de la secuencia de la SBP2 de Homo sapiens. Como en el caso anterior consideramos que ésta era una especie muy alejada filogenéticamente de la nuestra como para poder encontrar resultados significativos. En la base de datos de NCBI encontramos una predicción para la SBP2 de P.falciparum (NP_473214). A continuación, realizamos un TBLASTN en la terminal con la SBP2 de P.falciparum contra el genoma de P.knowlesi de PlasmoDB. Los resultados obtenidos mostraron un hit muy significativo con un e-value de 3·10-46 en el cromosoma 2. Después de manipular el archivo del genoma con el fin de extraer la zona del cromosoma donde se encontrará el candidato a gen de la SBP2; con el programa GeneWise obtuvimos una predicción de la estructura del gen, de la secuencia codificante y de la proteína. Los resultados obtenidos nos mostraron dos posibles candidatos a gen. El primer gen lo descartamos porque la proteína para la cual codificaba era muy corta. El segundo gen codificaba para una proteína que no empezaba con metionina y, por lo tanto, tuvimos que encontrar la metionina inicial. Para ello seleccionamos la secuencia codificante que nos proporcionaba el GeneWise y la localizamos dentro de la secuencia que habíamos extraído del cromosoma. A continuación, escogimos unas 100-200pb antes del inicio y todas las bases siguientes al final. Con el programa TranSeq tradujimos la secuencia a la proteína en las tres pautas de lectura en sentido 5'-3'. Estos resultados nos indicaron que la metionina del inicio se hallaba dentro de la secuencia que el GeneWise había alineado, concretamente, la pauta de lectura era el primer ORFs en sentido forward ya que los otros nos daban proteínas truncadas. Con la información de la secuencia codificante correcta, obtuvimos también la secuencia de la proteína. Las secuencias de las SBP2 de P.falciparum y de P.knowlesi fueron comparadas con el programa T-COFFEE y los resultados obtenidos mostraron un grado de similitud con un score de 55. Nuevamente, con el fin de evaluar la calidad de la proteína predicha, analizamos los dominios presentes y realizamos un TBLASTN contra los CDS de P.knowlesi del PlasmoDB. El resultado del InterProScan muestra que la proteína de P.falciparum y P.knowlesi comparten los mismos dominios característicos de la SBP2, especialmente el dominio L7Ae necesario para su correcto funcionamiento (Caban et al. 2007). Por otra parte, el resultado del TBLASTN en la terminal contra los CDS muestró un hit con un e-value 0.0 para el cromosoma 8. Este dato nos sorprendió ya que si recordamos el resultado del primer TBLASTN el hit significativo se encuentra en el cromosoma 2 y, además, no hay ningún hit significativo para el cromosoma 8. Nuestra hipotésis es que se cometió un error a la hora de anotar los CDS.

Selenofosfatasa sintasa

La SPS1 y SPS2 son selenofosfatasas sintasa inicialmente identificadas como selenoproteínas en mamíferos. Los estudios in vitro indican que únicamente SPS2 sintetiza sulfatos a partir de selenio mientras que SPS1 interviene en un proceso de reciclaje de selenocisteína dentro de un complejo sistema de recuperación del selenio. Dado que sus roles celulares no han sido concretados aún in vivo, se han realizado estudios recientes con knock out de las respectivas proteínas en células NIH3T3 de E. coli (Xu XM et al, 2007). Los resultados indican que SPS2 es esencial para la biosíntesis de selenoproteínas mientras que SPS1 tiene un papel más específico y no estrictamente necesario para el metabolismo de las selenoproteínas, tampoco para el reciclaje de las selenocisteínas; hipótesis que hasta ahora se mantenía. Además, se ha comprobado que ambas proteínas no tienen funciones redundantes ni se complementan. Así, podemos concluir que las especies necesitan SPS2 para sintetizar selenoproteínas (a parte de su función como selenoproteína), pero pueden carecer de SPS1 sin verse afectado el metabolismo de éstas. Emparándonos en estos recientes datos, hemos interpretado los resultados obtenidos de SPS1 y SPS2 en P. knowlesi que comentaremos brevemente a continuación.

Se realizaron paralelamente BLASTs correspondientes al genoma de P.knowlesi con la SPS1 y la SPS2 humanas en cada caso. El resultado del TBLASTN del alineamiento con SPS1 dió un e-value de 6·10-06 en el cromosoma 7 y, en el caso del aliniamiento con TBLASTN para la SPS2 se obtuvo un e-value de 5·10-06 en el mismo cromosoma pero no se alineaba la U correspondiente al elemento Sec de la selenoproteína. A pesar de tratarse ambos de valores relativamente altos, consideramos los e-values significativos y realizamos la predicción de la estructura exónica mediante el GeneWise para la SPS1 y la SPS2 con el fragmento genómico que contenía el alineamiento inicial de ambas proteínas. Aunque se trataba de la misma región cromosómica obtuvimos resultados diferentes; tres exones en la predicción génica de SPS1 y dos exones en la de SPS2. Localizamos tanto en una proteína como en la otra la metionina de incio de traducción y el codón STOP de finalización (éste último coincidía en ambas proteínas). Un tercer alineamiento entre las dos proteínas mediante T-COFFEE nos confirmó la perfecta similitud entre ellas con un score de 84. Con estos datos podíamos deducir que probablemente P.knowlesi sólo contuviera una de las dos selenofofatasas sintasa y para descartar una u otra comparamos entre los CDS conocidos de la base de datos de PlasmoDB con las dos proteínas respectivamente. En el primer TBLASTN de la SPS1 obtuvimos un e-value de 10-122 y, en el segundo caso, el TBLASTN de la SPS2 nos dio un e-value de 0.0. Con estos valores y las datos teóricos detallados al principio, concluímos que nuestro organismo contiene únicamente SPS2, dadas las evidencias encontradas así como su importancia biológica. Ésta seguramente ejerce únicamente función en la biosíntesis de selenoproteínas ya que no posee U ni elemento SECIS próximo a su región génica. Este hecho se confirma con la presencia de una dominio selenofosfatasa sintasa en su región génica terminal, predicho con el programa InterProScan. La proteína SPS2 humana también contiene un dominio de selenofosfatasa sintasa (PTHR10256).

Secp43

La Secp43 junto con la SLAP/LP son proteínas implicadas en la síntesis del Sec-tRNA[Ser]Sec y en la incorporación de la selenocisteína durante la traducción de la proteína. Actualmente aún no se conoce su exacto mecanismo de acción pero se sabe que gracias a los dos dominios de unión a ribonucleoproteínas que constituyen un dominio de unión a mRNA (RMM) se une a la SLA y al Sec-tRNA[Ser]Sec para situarlos en el compartimento nuclear, lugar donde reside normalmente. Estudios recientes han demostrado que Secp43 regula los procesos de metilación del Sec-tRNA[Ser]Sec, que juega un papel importante en la formación y estabilización del complejo EFSec/SBP2/Sec-tRNA[Ser]Sec y promueve la formación y localización subcelular del complejo SPS1/SLA/SECp43.

Con el fin de encontrar la Secp43 de P.knowlesi partimos de la secuencia de la Secp43 conocida para Drosophila melanogaster que se encuentra en el NCBI (NP_608837). Con esta información realizamos un TBLASTN en la terminal contra el genoma de P.knowlesi de PlasmoDB. El resultado obtenido fue un hit significativo con un e-value de 5·10-10 en el cromosoma 14. A continuación manipulamos el genoma con el fin de extraer la zona del cromosoma 14 que contiene nuestro gen candidato. En el programa GeneWise realizamos una predicción del gen cuyo resultado mostró un gen sin intrones y una proteína que no se iniciaba en metionina. Con el fin de buscar la metionina inicial localizamos el inicio y el final del CDS que nos proporcionaba el GeneWise en la zona del cromosoma 14 extraída. Seleccionamos entre unas 100-200pb antes del inicio del CDS y toda la secuencia que seguía al final del CDS y las pasamos por el programa TranSeq. El resultado del Transeq mostró que el GeneWise había alineado una proteína codificada en el primer ORF en sentido forward ya que los otros nos proporcionaban proteínas truncadas, además la metionina se encontraba dos aminoácidos upstream de la secuencia alineada. Seguidamente con la secuencia de la proteína predicha realizamos un T-COFFEE contra la secuencia de Secp43 de D.melanogaster para analizar su nivel de homología con un score de 49. Finalmente para evaluar la calidad de la proteína predicha realizamos un TBLASTN contra los CDS de P.knowlesi del PlasmoDB el resultado del cual fue un hit con un e-value de 0.0 y un 100% de homología. Por otra parte también estudiamos la presencia de los dominios RMM con el InterProScan los resultados mostraron la presencia de los mencionados dominios en la proteína de D.melanogaster y en la proteína de P.knowlesi.

Slap/LP

Recientemente la proteína SLA ha sido identificada como la proteína Sec sintetasa implicada en el último paso de la síntesis del Sec-tRNA[Ser]Sec . Además la proteína SLA junto con la SPS1 y la Secp43 forman un complejo que parece estar implicado en la incorporación de la selenocisteína en la selenoproteína.

En la base de datos de SelenoDB no podemos encontrar esta proteína por este motivo consultamos la base de datos del NCBI y encontramos la SLA/LP correspondiente a Drosophila melanogaster (NP_649556). Con la información de esta proteína realizamos un TBLASTN en la terminal contra el genoma de P.knowlesi (PlasmoDB). El resultado fue un hit significativo con un e-value de 7·10-64en el cromosoma 13. Después manipulamos el genoma para extraer la región del cromosoma 13 que contenía el candidato a gen, teniendo en cuenta que este se encuentra en sentido reverse. Con el programa GenWise predijimos la estructura del gen candidato a codificar la SLA. El resultado obtenido predijo un gen sin intrones pero que codificaba para una proteína que no se iniciaba con metionina. Por lo tanto como en los casos anteriores tuvimos que localizar la secuencia codificante que nos predecía el GeneWise en la secuencia extraída del cromosoma. A continuación se seleccionan entre unos 100-200pb antes del inicio del CDS del GeneWise y toda la secuencia a partir del final del CDS. Esta secuencia se pasa por el programa TranSeq para poder localizar el inicio y el final de la proteína. La proteína se traduce en el tercer ORF en sentido forward. A continuación con la proteína predicha realizamos un TBLASTN en el terminal contra los CDS de P.knowlesi de PlasmoDB. El resultado fue un hit significativo en el CDS con un e-value 0.0 y una homología del 100%. Seguidamente realizamos un GeneWise con la proteína predicha contra la secuencia extraída de nuestro genoma con el fin de obtener la estructura del gen; el resultado muestra una estructura génica sin intrones. Para finalizar realizamos un T-COFFEE para evaluar la homología entre la proteína predicha por el GeneWise y la proteína de D.melanogaster y el resultado nos mostró un score de 72, lo cual indica una elevada homología entre las dos secuencias. Por otro lado, el análisis con el InterProScan muestra que la proteía de D.melanogaster y la P.knowlesi presentan dominios en común. Estos dominios son característicos de antígenos de pancreas y hígado (PF05889 y PTHR12944).

PSTK

La PSTK es la O-phosphoseryl-Sec-tRNASec kinase una proteína implicada en la síntesis del Sec-tRNASec. La PSTK fosforila el Ser-tRNASec para producir el O-fosforil-tRNASec (Sep-tRNASec). Esta molécula es el substrato de la Sep-tRNA:Sec-tRNA sintetasa (SepSecS) que convierte el Sep-tRNASec en Sec-tRNASec.

La búsqueda de la PSTK en P.knowlesi se inició a partir de la PSTK anotada para Drosophila melanogaster (NP_608329). Primero se realizó un TBLASTN en la terminal contra el genoma de P.knowlesi obtenido de PlasmoDB. El resultado mostró un hit con un e-value de 0,96 en el cromosoma 2. Teniendo en cuenta que el hit alineaba una secuencia en sentido reverse, manipulamos el genoma con el fin de extraer la región del cromosoma 2 donde se encontraría el gen candidato a PSTK. A continuación con el programa GeneWise predijimos la estructura del gen que codificaba para la PSTK. El gen predicho no contenía intrones y la proteína para la que codificaba se iniciaba en metionina. Con el fin de asegurarnos que el gen acabara en el aminoácido predicho localizamos en la secuencia genomica el final de la secuencia codificante proporciando por el GeneWise. El resultado fue que tuvimos que alargar la secuencia cinco aminoácidos más ya que el codón STOP se hallaba 23pb downstream.
Con la secuencia proteica predicha realizamos un TBLASTN en el terminal contra los CDS de P.knowlesi obtenidos de PlasmoDB. El resultado muestra un alineamiento con un CDS situado en el cromosoma 2 con un e-value de 10-158 y una homología del 100%. A continuación extraímos la secuencia del CDS y la traducimos a proteína, la secuencia obtenida era similar a la predecida pero de un tamaño mayor. Seguidamente realizamos el análisis de las secuencias con el InterProScan; la proteína de D.melanogaster presentaba dominios KTI12 del tipo kinasa de unión a cromatina (PF08433) pero, contrariamente, la proteína traducida del CDS solo presentaba el dominio hidrolasas (G3DSA:3.40.50.300). Con estos resultados no podíamos afirmar que la proteína encontrada fuera la PSTK.
A continuación buscamos en el NCBI bibliografía sobre el tema y encontramos dos artículos interesantes. El primero de Carlson et al. 2004 mostraba un alineamiento múltiple con diferentes PSTK obtenidas de M.jannaschii (NP_248546) de M.kandleri (NP_614962), de C.elegans (CAB11556) y la secuencia de D.melanogaster utilizada anteriormente. Con esta nuevas secuencias y la secuencia proteica de nuestro CDS realizamos un T-COFFEE y observamos que las proteínas no presentaban una elevada homología (score de 34). Además analizamos con el InterProScan los dominios que presentaban las nuevas proteínas; los resultados son los siguientes: M.jannaschii, M.kandleri, C.elegans. Este análisis muestra que las proteínas de los organismos estudiados en este trabajo presentan el mismo dominio KTI12 que la de D.melanogaster y, por lo tanto, son sólidas candidatas a PSTK. El segundo artículo que encontramos es de Lyn Sherrer et al,2008 y en este se habla de proteínas PSTK encontradas en el género Plasmodium entre ellos la especie knowlesi. El método aplicado por los investigadores fue realizar un BLASTP con el dominio kinasa de la proteína PSTK de Drosophila contra los ORFs de P.knowlesi bajados de PlasmoDB. Nosotros reproducimos el método y los resultados mostraron un hit con un e-value de 0,28 en el cromosoma 2 (NOTA: se realizó el mismo proceso con el BLAST del PlasmoDB). En el artículo se exponen los dominios consenso que deberían presentar las kinasas. Buscamos estos dominios en el hit del TBLASTN y no los hallamos. Por lo tanto, no pudimos corroborar con los medios de los que disponiamos que el hit era un proteína kinasa. Además en los materiales complementarios del artículo pudimos hallar la entrada a la secuencia de la PSTK de P.knowlesi que se halla únicamente en PlasmoDB (PKH_020960). La secuencia que encontramos en esta entrada era idéntica a la secuencia proteíca que habíamos encontrado en los CDS de P.knowlesi. El problema está en que esta secuencia no contenía en el InterProScan el dominio KTI12 necesario para identificar la proteína como kinasa. Con el fin de eliminar los posibles errores del programa realizamos la búsqueda de dominios con el programa PFAM del Instituto Sanger. Los resultados para la PSTK de D.melanogaster mostraron nuevamente la presencia del dominio KTI12 pero los resultados para la proteína PSTK de P.knowlesi extraída del artículo continua sin mostrar la presencia del dominio KTI12.
Finalmente, podemos concluir que con nuestros resultados no podemos afirmar que la proteína traducida del CDS sea la PSTK de P.knowlesi.

Sec-tRNASec

El Sec-tRNASec se encarga de traducir el triplete UGA del mRNA de la selenoproteína por una selenocisteína (gracias a su anticodón). La función que desempeña es esencial para la formación de las selenoproteínas por lo que es imprescindible su presencia en el genoma.

Por esta razón, comparamos la secuencia del transcrito del Sec-tRNASec de P. falciparum con todo el genoma de P. knowlesi con el programa TBLASTN (se escogió el transcrito de P. falciparum ya que en la base de datos PlasmoDB no aparece el de P. knowlesi). Obtuvimos un valor de e-value significativo (e-value=4·10-41) con un porcentaje de identidad elevado, lo que nos indicó la posible presencia de dicho Sec-tRNASec. Una vez seleccionada la región del genoma, utilizamos el programa ARAGORN con el objetivo de detectar genes de tRNA en la secuencia genómica. La predicción indicaba la presencia del Sec-tRNASec en la secuencia con una longitud de 87 nucleótidos.
Finalmente, para confirmar la presencia de dicho gen en el genoma de P. knowlesi volvimos a comparar la secuencia predicha (obtenida del programa ARAGORN) con las secuencias codificantes (CDS) de la base de datos PlasmoDB del genoma de P.knowlesi. Los resultados del BLAST nos indicaron la existencia del gen del Sec-tRNASec en nuestro genoma problema.
La secuencia del Sec-tRNASec que nosotros predecimos no se corresponde exactamente con la secuencia encontrada hasta el momento (Lobanov et al, 2006). La longitud de la secuencia predicha es de 87 nucleótidos, como los encontrados en la mayoría de los Sec-tRNASec de otros eucariotas. Sin embargo, recientes estudios indicaban que el Sec-tRNASec de Plasmodium estaría formado por 90 nucleótidos. La diferencia viene dada por la longitud de los aceptores: el dinucleótido GC en un de los extremos de la secuencia y el nucleótido G en el otro extremo (ver imagen).



2. Proteínas homólogas en cisteína

Nombre Estructura Proteína CDS Secuencia genómica
GPx7 Imagen PH_001 CH_001 GH_001
GPx8 Imagen PH_002 CH_002 GH_002
TR Imagen PH_003 CH_003 GH_003


Glutatión peroxidasas

Las glutatión peroxidasas (GPx) son una familia de enzimas encargadas de proteger al organismo del estrés oxidativo. Existen diversas isoenzimas codificadas por diferentes genes que se diferencian, básicamente, por su situación celular y por su diferente especificidad de sustrato. La GPx7 y GPx8 de humano se clasifican dentro de la familia de selenoproteínas, aunque son homólogas en cisteína.

Con el objetivo de identificar dichas proteínas en Pasmodium knowlesi comparamos las secuencias proteicas de ambas GPx de humano (extraídas de la base de datos SelenoDB) con el genoma de P.knowlesi. Los resultados del BLAST nos indicaron que podían existir las proteínas en el genoma ya que obtuvimos valores de e-value significativos. El mejor alineamiento para GPx8 la situaba en el cromosoma 12, mientras que para la GPx7 encontramos dos buenos alineamientos con el mismo e-value en cromosomas distintos (12 y 13). Sin embargo, la región del cromosoma 12 alineada se correspondía con el alineamiento de la GPx8 ya que ambas proteína son parecidas. Por esta razón, escogimos la región alineada con el cromosoma 13.
Posteriormente, seleccionamos la región del genoma problema con mayor homología (mediante las manipulaciones expuestas en Materiales y Métodos) para obtener la estructura exónica de los posibles genes candidatos a GPx7 y GPx8 mediante el programa GeneWise.
A partir de las secuecias codificantes predichas, buscamos las secuencias genómicas de las proteínas en P.knowlesi. En ambos casos, nos encontramos que la proteína predicha no empezaba por metionina, de manera que buscamos la más próxima al inicio de la secuencia. Lo mismo sucedió con el codón de terminación, por lo que realizamos el mismo proceso. Una vez identificada toda la secuencia genómica obtuvimos la secuencia proteica completa, con la finalidad de compararla con la proteína de humano. Los resutados del programa Clustal-w indicaron una homología bastante significativa.
Para acabar de confirmar la existencia de las proteínas en P.knowlesi, comparamos con el programa BLAST las proteínas predichas con las secuencias codificantes (CDS) de la base de datos PlasmoDB del genoma de P.knowlesi. Obtuvimos valores de e-value significativos que nos indicaron la semejanza entre las secuencias comparadas.

Tioredoxin reductasa

Las tioredoxin reductasas (TR) son las enzimas encargadas de reducir la tioredoxin que facilita la reducción de otras proteínas. Estas enzimas están presentes en todos los reinos. En animales existen tres TR diferentes (TR1, TR2 y TR3) que se clasifican dentro de la familia de selenoproteínas.

Con la finalidad de encontrar estas selenoproteínas en el genoma de P.knowlesi, comparamos las secuencias proteicas de humanos de cada una de ellas con el genoma de P.knowlesi. Los resultados del BLAST dieron valores de e-value muy significativos para las tres proteínas aunque el alineamiento correspondía a la misma región cromosómica. Sin embargo, el alineamiento no contenía la selenocisteína. Aún así, procedimos al estudio de estas proteínas ya que la selenocisteína se encuentra en el extremo de la secuencia lo que dificulta su alineamiento.
El siguiente paso consistió en determinar la estructura exónica del fragmento extraído del mejor alineamiento. Sin embargo, la estructura predicha seguía sin alinear la selenocisteína ni con un codón de terminación ni con una cisteína. Pensamos que cambiando la selenocisteína (U) por una cisteína (C) se alinearía correctamente, ya que cerca encontramos una cisteína. Tal y como pensamos, se alinearon las dos cisteínas. Por lo tanto, en P.knowlesi las TR no son selenoproteínas sino que son homólogas en cisteína.
Con los resultados de GeneWise, a partir de la secuencia codificante predicha, obtuvimos la secuencia genómica del gen donde identificamos la primera metionina y el codón STOP. Al estar las tres proteínas alineadas en la msima región del genoma, pensamos que podría tratarse de la misma proteína. Por esta razón, en el siguiente paso alineamos las secuencias genómicas de las tres proteínas a la vez con el programa T-COFFEE. A partir de los resultados obtenidos confirmamos que se trataba de la misma secuencia. Además, observamos que el alineamiento perfecto se producía a partir del inicio de la TR1 (que tiene la secuencia más corta), por lo que empezamos alineando esta proteína con los CDS de P.knowlesi. El valor del e-value obtenido con el BLAST era de zero, lo que indica que el gen predicho de la TR1 existe y se expresa en P.knowlesi. Por esta razón, dejamos de estudiar las otras dos proteínas predichas ya que se encontraban en la misma región genómica.
Con toda esta información, deducimos que en este organismo aún no se ha producido el proceso de duplicación de las TR.



3. Selenoproteínas

Nombre Estructura Proteína CDS Secuencia genómica
Sel1 Imagen PS_001 CS_001 GS_001
Sel2 Imagen PS_002 CS_002 GS_002
Sel3 Imagen PS_003 CS_003 GS_003
Sel4 Imagen PS_004 CS_004 GS_004


Sel1

La selenoproteína 1 (Sel1) está organizada en tres exones en el último de los cuales encontramos la secuencia Sec. La presencia de este codón en el penúltimo rediuo del extremo C-terminal es reminiscente en otras selenoproteínas de animales como las TRs, la SelK, la SelO y la SelS. Además, la predicción de la estructura revela similaridades entre la Sel4 de Plasmodium y la SelK y la SelS de mamíferos. Este hecho suguiere un posible origen común de estas proteínas.

Para encontrar esta proteína en el genoma de P.knowlesi, comparamos la secuecia proteica de la Sel2 de P.falciparum (PF14_0033)con el genoma problema. El resultado del TBLASTN nos dio un alineamiento con un e-value significativo de 1·10-11 que incluía la U (secuencia Sec) en él. Seguidamente, seleccionamos el fragmento alineado y predecimos la estructura exónica con el programa GeneWise. Obtuvimos una predicción de un gen con tres exones que contenían la metionína inicial y el codón STOP (TGA) correspondiente a la secuencia Sec. Por esta razón, buscamos manualmente el codón de terminación en la secuencia, el cual se encontraba un triplete después de la secuencia STOP (TAA).
Con el objetivo de contrastar los resultados, comparamos la proteína predicha con la Sel2 de P.falciparum mediante el programa T-COFFEE. Los resultados nos indicaron un buen alineamiento con un score de 53.
Seguidamente, buscamos elementos SECIS próximos al gen predicho meiante el programa SECISearch. Encontramos un buen candidato con un score de 19,45, lo que nos confirmaba que el gen que habíamos identificado era un selenoproteína.
Finalmente, para acabar de confirmar la presencia de la Sel1 en el genoma de P.knowlesi realizamos dos pasos diferentes: identificación de dominios y alineamiento con los CDS. En el primer paso, el programa InterProScan identificó un dominio transmembrana para la proteína predicha pero ningún tipo de dominio para la Sel1 de P.falciparum. Sin embargo, en el segundo paso, el resultado obtenido del TBLASTN nos permitió verificar la presencia de su expresión (e-value=1·10-84).

Sel2

La selenoproteína 2 (Sel2)está formada por un único exón que contiene un motivo CxxU en el extremo N-terminal que toma estructura de hélice alpha. Este motivo ha sido encontrado en selenoproteínas de diferentes organimos como SelM, SelT, SelV y SelW. Este hecho sugiere que la selonoproteína Sel2 tendría una importante función redox en la célula.

Con el objetivo de encontrar la selenoproteína Sel2 en el genoma de P.knowlesi alineamos la secuencia proteica de Sel2 de P.falciparum (PFI1515w) con el genoma de P.knowlesi. Los resultados del programa TBLASTN nos daban un buen alineamiento con un e-value significativo en el cromosoma 7 que incluía el alineamiento de la U (codón que codifica para la selenocisteína) con un codón STOP (e-value=2·10-55). Una vez seleccionado el fragmento alineado del cromosoma, predecimos la estructura exónica con el programa GeneWise. El resultado fue la predicción de un gen con un único exón (hecho que se confirma con la información teórica comentada). La metionína de inicio se localizaba dos aminoácidos posteriores al comienzo de la proteína predicha mientras que el codón STOP (TAA) coincidía con el final de la predicción.
Para contrastar los resultados obtenidos, realizamos un alineamiento entre la proteína predicha y la Sel2 de P.falciparum. Con el programa T-COFFEE obtuvimos también unos resultados significativos (score=55).
A continuación, realizamos una búsqueda de elementos SECIS próximos al gen mediante el programa SECISearch. Obtuvimos un resultado positivo con un score de 29,7 cerca del extremo 3' de la secuencia, hecho que confirma su identidad como selenoproteína (imagen SECIS).
En el siguiente paso alineamos la proteína predicha de P.Knowlesi con los CDS de dicho organismo para verificar la presencia de su expresión. El resultado obtenido del TBLASTN tenía asociado un e-value muy significativo (e-value=2·10-78). Finalmente, realizamos la búsqueda de dominios mediante el programa InterProScan e identificamos un dominio de signal-peptide (que dirige a la proteí al apicoplasto) y dos dominios transmembrana que también comparte la Sel2 de P.falciparum.

Sel3

La proteína Sel3 de Plasmodium falciparum fue descubierta por Lobanov et al. en 2006. En el artículo se menciona que Sel3 contiene en sus 24 primeros aminoácidos una señal peptídica pero que en el extremo N-terminal donde se encuentra la selenocísteina no hay ningún motivo característico. Además con el uso del programa PATS v.1.2.1. se obtuvo con una probabilidad del 0.936 que la Sel3 podría ser una proteína localizada en el apicoplasto. También se observó que Sel3 se expresa a elevados niveles en trofozoitos y esquizontes.

La secuencia de Sel3 de P.falciparum la obtuvimos de la base de datos PlasmoDB (MAL8P1.86). A continuación realizamos un TBLASTN en la terminal con la secuencia de PlasmoDB contra el genoma de P.knowlesi de PlasmoDB. El resultado fue de un hit muy significativo con un e-value de 1·10-46 en el cromosoma 14. Manipulamos el genoma para obtener la región cromosómica en la cual se encuentra el candidato a gen. Realizamos un GeneWise con la Sel3 de P.falciparum y con la secuencia genómica. El resultado mostró un alineamiento entre una U y un codón STOP del tipo TGA (NOTA: el programa no alineo la U con el codón STOP sino que colocó un GAP al lado de la U pero esto es debido a que el programa no reconoce el codón TGA como codón codificante para selenocisteína y prefiere alinear la U con un aa). La predicción fue un gen sin intrones y una proteína que se iniciaba con una metionina. Localizamos la secuencia codificante del GeneWise en el cromosoma para poder identificar el codón STOP y localizamos un codón TAA a continuación del último aminoácido de la proteína predicho por el GeneWise. A continuación realizamos un T-COFFEE con la proteína predicha y la Sel3 de P.falciparum y los resultados mostraron una homología con un score de 63. Después con el programa SECISearch se buscó el SECIS correspondiente a la proteína, introduciendo en el programa la secuencia genómica extraída del cromosoma. El resultado fue un SECIS con un score de 36,38. Finalmente se utilizó el programa InterProScan para comparar los dominios entre la Sel3 de P.falciparum y la Sel3 de P.knowlesi. Los resultados mostraron que ambas proteínas presentan el dominio de signal-peptide. Por último realizamos un TBLASTN en la terminal de la proteína de P.knowlesi contra los CDS para verificar que hay evidencias de expresión de la proteína y los resultados fueron un hit muy significativo con un e-value de 10-162.

Sel4

La selenoproteína 4 (Sel4) está formada por dos exones, el último de los cuales contiene la secuencia Sec en el penúltimo residuo. La presencia del codón UGA en el extremo C-terminal se encuentra también en otras selenoproteínas animales, como las TRs, la SelK, la SelO y la SelS. Además, igual que la Sel1,la predicción de la estructura secundaria revela similaridades entre la Sel4 de Plasmodium y la SelK y la SelS de mamíferos. Este hecho sugiere el posible orígen común de estas proteínas.

Para identificar la Sel4 en nuestro organismo comparamos la secuencia proteíca de la Sel4 (correspondiente a P. falciparum con el genoma de P.knowlesi (PF14_0251). Los resultados del TBLASTN nos dieron un e-value significativo de 4·10-19, a pesar de que el alineamiento no incluía la U. Esto se debe a que la U corresponde al penúltimo aminoácido, por esta razón, el programa BLAST no la alinea con la secuencia ya que haría disminuir el score del alineamineto. Por esta misma razón, tendremos en cuenta los resultados obtenidos.
El siguiente paso fue obtener el fragmento alineado y predecir la estructura exónica correspondiente, con el programa GeneWise. Obtuvimos un gen con un sólo exón que empezaba con la metionina inicial y terminaba con un codón STOP (TGA) que correspondía con el elemento Sec. A continuación localizamos manualmente en el genoma de nuestro organismo el codón STOP terminal de la proteína, tres residuos posterior a la selenocisteína. Identificado el genoma que codificaba para nuestra selenoproteína, realizamos un alineamiento final mediante el programa T-COFFEE entre nuestra proteína predicha y la proteína correspondiente de P. falciparum y obtuvimos un score de 47.
El siguiente paso fue verificar su identidad como selenoproteína mediante la búsqueda de elementos SECIS con el programa SECISearch y nos dio un resultado significativo superior a 15 (score=19.03). Finalmente obtuvimos une-value significativo de 5·10-43 al realizar un alineamiento con el TBLASTN entre la proteína predicha y la secuencias codificantes facilitadas por la base de datos del PlasmoDB. Por último identificamos un dominio transmembrana en la proteína mediante el programa InterProScan, dominio que tambén encontramos en la Sel4 de P. falciparum.



4. Nuevas selenoproteínas

Nombre Estructura Proteína CDS Secuencia genómica
SelX Imagen PS_005 CS_005 GS_005


Después de haber encontrado varias Selenoproteinas comparando las de P.falciparum, quisimos encontrar potenciales nuevas selenoproteínas.
Primero, buscamos elementos SECIS en todo el genoma de P.knowlesi con el programa SECISearch. La busqueda se relizó en sentido forward como reverse. El resultado en sentido forward dio un total de 41 hits y el resultado en sentido reverse dio un total de 91 hits. Se debe tener en cuenta que el programa a la hora de realizar el análisis en sentido reverse también muestra los SECIS que encuentra en sentido forward. La evaluación de los resultados obtenidos se realizó a partir del criterio que especifica el programa. Dicho criterio es que solo aquellos SECIS que presenten un score superior a 15 podrán ser considerados como potenciales elementos SECIS dentro del genoma. De esta manera, solo 5 SECIS se ajustaban a los parámetros establecidos. Seguidamente, descartamos aquellos SECIS que se correspondieran con los SECIS identificados anteriormente para las selenoproteínas de P.knowlesi. Finalmente, obtuvimos un único potencial candidato a SECIS con un score de 15,31.

Para saber si el SECIS correspondía a un SECIS de una nueva selenoproteína realizamos diferentes procedimientos independientes y paralelos. En un primer lugar, seleccionamos el fragmento del cromosoma 3 donde se encontraba el gen potencial (ver Materiales y Métodos). Con esta información realizamos diferentes análisis:
1. Con el programa ORFinder buscamos evidencias de ORFs. Los resultados nos mostraron diversos candidatos de inicio de transcripción. Esta información da evidencias de la existencia de posibles genes aún no conocidos.
2. Realizamos un BLASTN contra los CDS de P.knowlesi con el fin de averiguar si había alguna proteína que se localizara en esa región del cromosoma 3. Este paso lo realizamos para descartar aquellas proteínas cuya secuencia estuviera anotada correctamente o para descubrir si había algún CDS candidato a selenoproteína (no conocido). Los resultados mostraron tres hits significativos para distintos CDS para los cuales no había función conocida (localizados en la base de datos GeneDB). El CDS con el e-value de 0.0 no acababa con un TGA, por la cual cosa lo descartamos como posible selenoproteína. El CDS con un e-value de 2·10-63 sí que acababa con un TGA y, a continuación tenía un codón STOP. El paso siguiente fue localizar su correspondiente SECIS, seleccionando 15000pb desde el codón ATG de inicio. El resultado del SECISearch no mostró ningún elemento SECIS. Por último el CDS (PKH_031110) con un e-valuede 2·10-33 cumplía todos los requisitos para ser candidato a selenoproteína. El elemento SECIS correspondiente a esta secuencia coincidía con el SECIS candidato encontrado inicialmente.
A continuación para comparar la secuencia candidata a selenoproteína con las selenoproteínas encontradas realizamos un análisis de los dominios con el InterProScan. El resultado muestra que nuestra candidata comparte el dominio de signal peptide que dirige la proteína al apicoplasto, como la Sel3 y la Sel2. Paralelamente, también realizamos un TBLASTN comparando la selenoproteína predicha con los transcritos de P.knowlesi obtenida del PlasmoDB. Sorprendentemente, el resultado no produjo un alineamiento de la U de nuestra proteína y, ademámas, acababa en el último codón del CDS hipotético. Estos resultados ponen en evidencia la posibilidad de que la proteína predicha se transcriba hasta el primer TGA y, por lo tanto, no sería una selenoproteína.
3. Partiendo del hecho que es posible que el gen candidato a selenoproteína sea un homólogo en cisteína en otras especies realizamos un BLASTX contra las bases de datos del NCBI. Los resultados del programa no mostraron ningún alineamiento lo que nos conduce a pensar que si existe algún gen en esta región cromosómica codificará para una nueva selenoproteína. Este paso refuerza los resultados obtenidos en el paso 2.