MATERIALES Y MÉTODOS

En busca de selenoproteínas...

Ver protocolo ABP

Dado que el codón TGA tiene un doble significado en el genoma, la identificación de las selenoproteínas de cada genoma supone todo un reto.

Normalmente el codón TGA da lugar a la terminación de la traducción, pero en ocasiones, codifica para una selenocisteína, aminoácido poco común que caracteriza a un grupo de proteínas llamado selenoproteínas.

Los programas habituales de análisis de genomas no distinguen si TGA se trata de un codón STOP o de un codón que codifica para Sec. A la hora de secuenciar un genoma, se le otorga automáticamente el rol de STOP a dicho codón, lo que supone un obstáculo en la identificación de selenoproteínas.

Por ello, al plantearnos este trabajo, hemos tenido que crear un protocolo capaz de hallar selenoproteínas pese a que los genomas no estén anotados de acuerdo con la existencia de este aminoácido.

Para corroborar que estamos ante una selenoproteína deberíamos confirmar la existencia de varios elementos:

  1. Presencia del codón TGA in frame
  2. Presencia de elementos SECIS en la región downstream
  3. Conservación de secuencia aminoacídica upstream y downstream del codón TGA

A partir de la comparación de secuencias conocidas de selenoproteínas de humano y otros organismos con B. bigemina pretendemos encontrar parte del selenoproteoma de este organismo, asumiendo que las proteínas estarán conservadas entre estas especies. Por ello precisamente hemos escogido por un lado una especie bien estudiada como es Homo sapiens, y por otro lado, una especie unicelular, más cercana en este sentido a nuestro organismo problema, como Plasmodium y Emiliania.

  1. Obtención de la secuencia del genoma desde la página Sanger institute.
  2. Hay que tener en cuenta que el genoma de B. bigemina no aparece ensamblado sino en forma de contigs.

  3. Investigamos sobre la biología de la especie problema.
  4. Obtenemos de las secuencias de selenoproteínas humanas conocidas en la base de datos SelenoDB.
  5. Comparamos de la secuencia de aminoácidos de cada selenoproteína con la secuencia del genoma de B. bigemina utilizando el tBLASTn con comandas en el Shell. Para ello tBLASTn utiliza la matriz BLOSUM62.
    • Antes de empezar instalamos el programa BLAST y preparamos el ordenador para su uso.
    • Para más información de tBLASTn pulse aquí.

    • Creamos la base de datos del genoma Babesia bigemina y comprobamos que está correctamente creada.
    • Hacemos un tBLASTn que compara una secuencia de proteína (query) con una secuencia de nucleótidos (subject). En nuestro caso, compara cada una de las selenoproteínas humanas, con la base de datos que hemos creado. Determinamos un e-value inicial de 10.0 y después de 1.0.
    • De todos los alineamientos obtenidos en el paso anterior, seleccionamos aquellos que tienen un e-value significativo, es decir, los que tienen un e-value menor y que además tienen un buen alineamiento.
    • Indexamos las selenoproteínas humanas y los contigs de B. bigemina para poder extraer aquellas que nos han dado un buen alineamiento.
    • Extraemos de los contigs seleccionados, un fragmento de 3000 nucleótidos que empiece aproximadamente 1000 nucleótidos antes del primer nucleótido alineado
    • Si en los alineamientos seleccionados la secuencia de B. bigemina está en forma reversa, pasamos el contig a su forma directa.
    • De las secuencias que estaban en forma reversa, tendremos que repetir los pasos anteriores, realizando una base de datos y un alineamiento de cada contig para cada selenoproteína.
    • Hacemos el Genewise en el terminal del Shell que produce un alineamiento de proteína con DNA describiendo una estructura genética probable.
    • Hacemos el Exonerate en el terminal recordando cambiar las U por * en la secuencia de la proteína. Este programa alinea secuencias y predice cuál podría ser la estructura exónica de la secuencia problema. Para ello se basa tanto en procedimientos heurísticos como en programación dinámica.
    • Si ni con Genewise ni con Exonerate obtenemos buenos resultados, probamos a hacer la proteína compuesta con el alineamiento que dio el tBLASTn. Lo que hacemos es poner la secuencia alineada de Babesia y completamos los fragmentos 3' y 5' de la proteína con la secuencia humana. Volvemos a hacer el Genewise y el Exonerate pero con estas proteínas compuestas para ver si mejora el alineamiento.
  6. Si no encontramos ningún homólogo de las selenoproteínas de humano en B. bigemina, miraremos si tiene alguna selenoproteína homóloga a las de P. falciparum, E. huxleii y dos selenoproteínas humanas que no aparecian en SelenoDB: SelJ y SelP.
    • Antes de empezar instalamos el programa BLAST y preparamos el ordenador para su uso.
    • Creamos un archivo para cada una de las secuencias de P. falciparum y E. huxleii y utilizaremos la base de datos de B. bigemina para realizar los alineamientos.
    • Hacemos un tBLASTn para cada una de las proteínas con el genoma de B. bigemina y con un e-value de 1.0.
    • De todos los alineamientos obtenidos en el paso anterior, seleccionamos aquellos que tienen un e-value significativo y que además un buen alineamiento.
    • Extraemos el contig de las proteínas con alineamiento significativo y seleccionamos el fragmento de 3000nt al igual que hacíamos antes con las selenoproteínas de humano.
    • Hacemos el Genewise en el terminal Shell y el Exonerate (recordando cambiar las U por * en la secuencia de la proteína).
    • Si ni con Genewise ni con Exonerate obtenemos buenos resultados, probamos a hacer la proteína compuesta con el alineamiento que dio el tBLASTn y volvemos a hacer el Genewise y el Exonerate pero con estas proteínas compuestas para ver si mejora el alineamiento.
  7. Caracterizamos las proteínas que se hayan detectado en nuestro organismo como homólogas a las de los organismos con los que hemos hecho el BLAST.
    • Recuperamos el tBLASTn y el archivo con los 3000 nucleótidos cortados En nuestro caso trabajaremos con la proteína de E. huxleii.
    • Traducimos estos 3000 nucleótidos con Expasy Proteomics server que permite traducirlo a las seis pautas de lectura posibles. En la página de Expasy elegimos "DNA to protein" y después "translate".
    • Para averiguar la pauta de lectura de nuestra proteiína miramos los aminoácidos con los que alinea el tBLASTn y buscamos con qué traducción se corresponde.
    • A continuación buscamos la primera metionina (primer aminoácido de la proteína) antes de la región alineada y el primer codón STOP después de la región alineada.
    • Construimos la proteína con los aminoácidos entre la metionina y el STOP hallados.
    • Miramos desde qué nucleótido hasta qué nucleótido codifican para la proteína.
  8. Comprobamos si B. bigemina comparte el patrón de expresión de algunas proteínas propio de algunos insectos sin selenoproteínas.
    • Obtención de las secuencias de las proteínas de estos insectos de la página en formato FASTA. Miramos: SPS1, SPS2, tRNASec, Secp43, SelK, SelH, PSTK, SLA/LP.
    • Con estas proteínas hacemos tBLASTn igual que habíamos hecho con las de humano. La excepción es tRNASec con la que haremos BLASTn ya que la secuencia viene dada en nucleótidos y no en aminoácidos.
    • Extraemos el contig de las proteínas con alineamiento significativo y seleccionamos el fragmento de 3000nt al igual que hacíamos antes con las selenoproteínas de humano, P. falciparum y E. huxleii.
    • Con las proteínas cuya secuencia está del reverso, hacemos la secuencia directa y repetimos los pasos anteriores.
    • Con las proteínas que tienen alineamientos significativos, realizamos Genewise y Exonerate (recordar cambiar U por *).
    • Descartamos las proteínas con resultados muy poco significativos y con el resto repetimos los pasos anteriores utilizando esta vez la proteína compuesta.
  9. Intentamos encontrar selenoproteínas exclusivas de nuestro organismo que no hayan sido encontradas en ningĂșn otro genoma hasta el momento.
    • Buscamos los posibles elementos SECIS del genoma de Babesia con el programa Secisearch 2.19.
    • De los hits que el programa detecte en el genoma elegimos aquellos que tengan un score mayor de 9 para analizar (el score recomendado es de 15).
    • Extraemos 3000 nucleótidos upstream a la estructura de cada SECIS para poder buscar en ellos un TGA que codifique para una selenocisteína en vez de ser un STOP. Extraemos en un nuevo archivo cada contig en el que están incluidos los SECIS con buena puntuación y extraemos los 3000 mucleótidos.
    • Buscamos TGA en las secuencias de 3000 nucleótidos. Para ello usamos el BLASTx. En query ponemos los 3000 nucleótidos que hemos extraído y en database elegimos "non-redundant protein sequences (nr)" y alineamos contra todas las especies.
    • Tenemos la intención de encontrar proteínas que en otras especies tengan C pero en la nuestra tengan un * (STOP). Para hallarlo con rapidez hacemos un programa en Perl para que informe en qu&ecuate; posición se alinea un * del query con una C del Subject. Adaptamos el programa para que también encuentre alineamientos de * con U y *. Programa.
    • Guardamos los alineamientos de cada contig en archivos y pasamos el programa.

    • Hacemos el estudio de los alineamientos de *-C en el caso de que los haya, para determinar si se tratan de nuevas selenoproteínas de la especie B. bigemina.

Para ver las comandas haz clic aquí

Volver al menú

CONTÁCTANOS:  selenoproteinas_upf@live.com