Materiales y métodos
  • INTRODUCCIÓN
    • Presentación del trabajo
    • E.dispar
    • Selenoproteínas
    • Maquinaria
  • DESARROLLO
    • Materiales y Métodos
    • El trabajo Paso a Paso
    • Problemas encontrados y sus soluciones
  • RESULTADOS
    • Selenoproteínas
    • Maquinaria
    • Conclusiones
  • AUTORES
    • Nosotras/os
    • Profesores y la asignatura
  • REFERENCIAS
    • Bibliografía
  • IMÁGENES
    • Imágenes
  •  

MATERIALES Y MÉTODOS


Este trabajo ha estado fundmaentalmente basado en la utilización de programas que nos permiten el manejo de las secuencias y de los archivos fasta y multifasta. Además es de remarcar la utilización del sistema UNIX para todo el trabajo, ya que nos permite utilizar la terminal y trabajar de forma más directa con los archivos, que en muchos casos movian cantidades enormes de información.

1. Obtención de genomas facilitados por los profesores

Un análisis preliminar de la secuencia a simple vista permitió conocer que se trataba de una secuencia multi-FASTA (una colección de fragmentos, también conocidos como contigs, en formato FASTA). El hecho de que la secuencia completa del genoma esté fragmentada es consecuencia del método de secuenciación utilizado (whole genome shotgun).

2. Caracterización de la especie y búsqueda de posible bibliografía de selenoproteínas encontradas en ésta

Se buscó información sobre la especie asignada y si había estudios previos sobre selenoproteínas descubiertas en esta especie (y en especies cercanas) para orientar la investigación.

3. Búsqueda de selenoproteínas en SelenoDB

Se entró en la base de datos SelenoDB para descargar algunas de las secuencias de selenoproteínas descritas hasta el momento. SelenoDB se trata de una base de datos que almacena información acerca de selenoproteínas clasificadas por especies. Además incluye información sobre elementos SECIS y proteínas relacionadas con la maquinaria de síntesis de las selenoproteínas.

Como la especie humana es la que mayor número de selenoproteínas caracterizadas posee, se decidió comenzar utilizando estas.

A continuación, se decidió explorar las del resto de especies de SelenoDB, más cercanas a la especie asignada, donde la probabilidad de encontrar proteínas homólogas se esperaba que fuese mayor. Entre estas especies se incluyó también el reino protista.

Y finalmente el resto de las selenoproteínas hasta ahora descubiertas en protistas, no descritas en SelenoDB, que fueron proporcionadas por el profesorado.

4. Comparación de las secuencias aminoacídicas obtenidas con el genoma de estudio: TBLASTN

Una vez instalado el software del BLAST, se realizaron los alineamientos desde la terminal de Linux en línea de comandas, siguiendo el siguiente patrón para cada selenoproteína:

  1. $blastall -p tblastn -i <secuencia aa de la proteína query .fa> -d <genoma de E.dispar .fa> -o <nombre del archivo que nos dará, output> -F F
  2. seleccionar los hits significativos
  3. resumen de los hsp con el parámetro -m 9 añadido a la comanda del blastall: $blastall -p tblastn -i <secuencia aa de la proteína query .fa> -d <genoma de E.dispar .fa> -o <nombre del archivo que nos dará, output> -F F –m 9
  4. fastafetch con el archivo genome.index (índice de los identificadores de todas las secuencias -los contigs, los scaffolds- que componen el archivo multi–FASTA genome.fa): $fastafetch <genoma de E.dispar .fa> <índice del genoma de E.dispar .index> "<identificador del contig>" > <nombre del contig.fa>
  5. fastasubseq para seleccionar una subsecuencia que contenga la parte alineada y 3000 nucleótidos flanqueándola, en ambos extremos, 3’ y 5’, para no perder el primer exón y buscar el elemento SECIS en caso de que haya (siempre que fuese posible, ya que a veces el contig era demasiado corto, en cual caso trabajábamos con el contig directamente) $fastasubseq <nombre del cotig.fa> <posición -3000 respecto al primer nucleótido alineado> <longitud de la región alineada + 6000 nucleótidos> > <subsecuencia contig.fa>
  6. exonerate o genewise
    1. exonerate: $exonerate –m p2g –showtargetgff –q <secuencia aa de la proteína query .fa> -t <subsecuencia contig.fa> > <exonerate.out>
    2. genewise: $genewise –pep –pretty –cdna –gff <secuencia aa de la proteína query .fa> <subsecuencia contig.fa> > <genewise.out>

De este modo, se obtuvieron dos alineamientos significativos para dos selenoproteínas con los que se decidió seguir investigando. Gracias al output del genewise se obtuvieron las secuencias peptídicas de dos selenoproteínas putativas en E.dispar: selI y EhSEP2.

Se decidió hacer un protein-BLAST en línea (NCBI protein BLAST) de estas secuencias de selenoproteínas putativas de E.dispar frente a las bases de datos de los organismos de los cuales se había partido. En el caso de la SelI: Homo sapiens y Drosophila melanogaster. En el caso de la EhSEP2: Emiliania huxleyi.

Búsqueda de nuevas selenoproteínas:

Búsqueda de elementos SECIS

Una vez realizada la búsqueda de selenoproteínas homólogas en el genoma de E. dispar el siguiente objetivo propuesto es la búsqueda de posibles selenoproteínas aún no descritas. Para ello se lleva a cabo la búsqueda de:

  1. El elemento SECIS en la región 3’ UTR.
  2. Un codón TGA in frame a una distancia de 500-1000pb en dirección 5’ del elemento SECIS y presente en un exón.

Los pasos seguidos se describen a continuación:

  • Se realiza la búsqueda de elementos SECIS en el genoma de E. dispar mediante el programa SECISearch.pl, script originalmente desarrollado por Gregory Kryukov y posteriormente modificado por Charles Chapple y se seleccionan únicamente aquellas predicciones de elementos SECIS que, según su estructura secundaria pueden corresponderse a un verdadero elemento SECIS.
  • Para poder estudiar la región del genoma donde se predice la presencia del elemento SECIS se selecciona el contig donde se encuentra dicha región desde la terminal mediante la comanda fastafetch.
  • Se selecciona dentro del contig la subsecuencia que presenta homología con la predicción del elemento SECIS desde la terminal a través de la comanda fastasubseq. Dentro de esta subsecuencia se incluyen 1000pb en la región 5’
  • Se realiza un BLASTX contra la base de datos de NCBI para encontrar posibles coincidencias con proteínas identificadas en diferentes especies incluída E.dispar
  • A continuación se observa para cada una de las proteínas que se encuentran como hit (con un e-value significativo) con qué tipo de codón STOP terminan. En el caso de que terminen con TAG o TAA, la investigación con estas proteínas termina aquí ya que dichos codones implican la terminación de la traducción, sin posibilidad de que haya selenocisteína. En el caso de que las proteínas que hay como hit terminen con TGA, como existe la posibilidad de que estén mal anotadas en la base de datos, continúa la investigación.
  • Se localiza el codón TGA de terminación dentro de la subsecuencia de modo que si en los 1000 nucleótidos 5’ del posible elemento SECIS no aparece, implica que el supuesto SECIS se encuentra 5’ de dicho codón. En este caso, se para aquí la investigación con las proteínas de estas características ya que el elemento SECIS debe estar en posición 3’ del codón TGA para incorporar la selenocisteína. En el caso de que se localice el posible codón de selenocisteína en posición 5’ del supuesto elemento SECIS, se continúa la investigación con la proteína.
  • Se traducen 180 nucleótidos upstream y downstream del codón TGA (120 aminoácidos en total) en el marco de lectura que incluye dicho codón.
  • Se ejecuta el programa tblastn de la secuencia de 120 aminoácidos contra la base de datos de NCBI con el objetivo de encontrar homólogos en otras especies a esta secuencia de E.dispar con cisteína o con selenocisteína

Búsqueda de tRNAs de selenocisteína

Otro enfoque a la hora de encontrar nuevas selenoproteínas no anotadas hasta el momento es buscar el tRNA que transporta la selenocisteína para la traducción de selenoproteínas. Para este objetivo, se procede con la ejecución del programa tRNAscan buscando todos las secuencias predichas de tRNAs y a continuación se identifican tRNAs de Selenocisteína.