MATERIALES Y MÉTODOS
En busca de selenoproteínas...
Ver protocolo ABP
Dado que el codón TGA tiene un doble significado en el genoma, la identificación de las selenoproteínas de cada genoma supone todo un reto.
Normalmente el codón TGA da lugar a la terminación de la traducción, pero en ocasiones, codifica para una selenocisteína, aminoácido poco común que caracteriza a un grupo de proteínas llamado selenoproteínas.
Los programas habituales de análisis de genomas no distinguen si TGA se trata de un codón STOP o de un codón que codifica para Sec. A la hora de secuenciar un genoma, se le otorga automáticamente el rol de STOP a dicho codón, lo que supone un obstáculo en la identificación de selenoproteínas.
Por ello, al plantearnos este trabajo, hemos tenido que crear un protocolo capaz de hallar selenoproteínas pese a que los genomas no estén anotados de acuerdo con la existencia de este aminoácido.
Para corroborar que estamos ante una selenoproteína deberíamos confirmar la existencia de varios elementos:
- Presencia del codón TGA in frame
- Presencia de elementos SECIS en la región downstream
- Conservación de secuencia aminoacídica upstream y downstream del codón TGA
A partir de la comparación de secuencias conocidas de selenoproteínas de humano y otros organismos con B. bigemina pretendemos encontrar parte del selenoproteoma de este organismo, asumiendo que las proteínas estarán conservadas entre estas especies. Por ello precisamente hemos escogido por un lado una especie bien estudiada como es Homo sapiens, y por otro lado, una especie unicelular, más cercana en este sentido a nuestro organismo problema, como Plasmodium y Emiliania.
- Obtención de la secuencia del genoma desde la página Sanger institute.
Hay que tener en cuenta que el genoma de B. bigemina no aparece ensamblado sino en forma de contigs.
- Investigamos sobre la biología de la especie problema.
- Obtenemos de las secuencias de selenoproteínas humanas conocidas en la base de datos SelenoDB.
- Comparamos de la secuencia de aminoácidos de cada selenoproteína con la secuencia del genoma de B. bigemina utilizando el tBLASTn con comandas en el Shell. Para ello tBLASTn utiliza la matriz BLOSUM62.
- Si no encontramos ningún homólogo de las selenoproteínas de humano en B. bigemina, miraremos si tiene alguna selenoproteína homóloga a las de P. falciparum, E. huxleii y dos selenoproteínas humanas que no aparecian en SelenoDB: SelJ y SelP.
- Antes de empezar instalamos el programa BLAST y preparamos el ordenador para su uso.
- Creamos un archivo para cada una de las secuencias de P. falciparum y E. huxleii y utilizaremos la base de datos de B. bigemina para realizar los alineamientos.
- Hacemos un tBLASTn para cada una de las proteínas con el genoma de B. bigemina y con un e-value de 1.0.
- De todos los alineamientos obtenidos en el paso anterior, seleccionamos aquellos que tienen un e-value significativo y que además un buen alineamiento.
- Extraemos el contig de las proteínas con alineamiento significativo y seleccionamos el fragmento de 3000nt al igual que hacíamos antes con las selenoproteínas de humano.
- Hacemos el Genewise en el terminal Shell y el Exonerate (recordando cambiar las U por * en la secuencia de la proteína).
- Si ni con Genewise ni con Exonerate obtenemos buenos resultados, probamos a hacer la proteína compuesta con el alineamiento que dio el tBLASTn y volvemos a hacer el Genewise y el Exonerate pero con estas proteínas compuestas para ver si mejora el alineamiento.
- Caracterizamos las proteínas que se hayan detectado en nuestro organismo como homólogas a las de los organismos con los que hemos hecho el BLAST.
- Recuperamos el tBLASTn y el archivo con los 3000 nucleótidos cortados En nuestro caso trabajaremos con la proteína de E. huxleii.
- Traducimos estos 3000 nucleótidos con Expasy Proteomics server que permite traducirlo a las seis pautas de lectura posibles. En la página de Expasy elegimos "DNA to protein" y después "translate".
- Para averiguar la pauta de lectura de nuestra proteiína miramos los aminoácidos con los que alinea el tBLASTn y buscamos con qué traducción se corresponde.
- A continuación buscamos la primera metionina (primer aminoácido de la proteína) antes de la región alineada y el primer codón STOP después de la región alineada.
- Construimos la proteína con los aminoácidos entre la metionina y el STOP hallados.
- Miramos desde qué nucleótido hasta qué nucleótido codifican para la proteína.
- Comprobamos si B. bigemina comparte el patrón de expresión de algunas proteínas propio de algunos insectos sin selenoproteínas.
- Obtención de las secuencias de las proteínas de estos insectos de la página en formato FASTA. Miramos: SPS1, SPS2, tRNASec, Secp43, SelK, SelH, PSTK, SLA/LP.
- Con estas proteínas hacemos tBLASTn igual que habíamos hecho con las de humano. La excepción es tRNASec con la que haremos BLASTn ya que la secuencia viene dada en nucleótidos y no en aminoácidos.
- Extraemos el contig de las proteínas con alineamiento significativo y seleccionamos el fragmento de 3000nt al igual que hacíamos antes con las selenoproteínas de humano, P. falciparum y E. huxleii.
- Con las proteínas cuya secuencia está del reverso, hacemos la secuencia directa y repetimos los pasos anteriores.
- Con las proteínas que tienen alineamientos significativos, realizamos Genewise y Exonerate (recordar cambiar U por *).
- Descartamos las proteínas con resultados muy poco significativos y con el resto repetimos los pasos anteriores utilizando esta vez la proteína compuesta.
- Intentamos encontrar selenoproteínas exclusivas de nuestro organismo que no hayan sido encontradas en ningĂșn otro genoma hasta el momento.