Materiales y Métodos

Procedimiento

En primer lugar, buscamos las secuencias de selenoproteínas humanas en la base de datos de secuencias proteicas de Ensembl y escogimos aquellas que no habían sido estudiadas los cursos anteriores. De la misma base de datos extragimos los cDNAs y los guardamos en formato FASTA. Se pueden consultar estas secuencias en los siguientes enlaces:

A partir de todas estas secuencias iniciales encontradas, decidimos descartar aquellas de las cuales la secuencia 3'UTR no estaba resgistrada en la base de datos, ya que es la región donde se encuentra el elemento SECIS en las selenoproteínas y necesitamos tener la secuencia de esta región para poder analizar los posibles SNPs que se encuentren en él. Así pues, descartamos los tránscritos 2 al 6 de DI1, el tránscrito 1 de DI2 y los tránscritos 1 y 2 de SPS2. Con las secuencias resultantes, entramos en la base de datos dbSNP desde NCBI, pero no se nos mostraron todos los resultados posibles, así que buscamos esa misma información en Ensembl. En esta base de datos, sí pudimos analizar bien los SNPs de las secuencias que nos interesaban. Muchas de las selenoproteínas estudiadas no cumplían con todos los requisitos que necesitábamos para llevar a cabo nuestro proyecto, así que decidimos hacer una tabla resumen con las características que nos interesaban de cada una de las selenoproteínas humanas que habíamos encontrado, para posteriormente poder escoger aquellas que tuvieran SNPs en la región codificante que pudieran afectar a un codón TGA que codifica para Sec o bien aquellos que se encontraran en la secuencia del elemento SECIS. La tabla resumen es la siguiente:

Nombre Selenoproteína Contiene Sec (Sí/No) SNPs en región codificante (Sí/No) SNPs en región no-codificante (Sí/No) Sin Sec pero stop codon es TGA (Sí/No)
SelS No No
SelT No
SelM No No No
SelP No
15KDa (1er tránscrito)
15KDa (2o tránscrito) No
DI1 (1er tránscrito) No
DI1 (7o tránscrito) No
DI1 (8o tránscrito) No No
DI2 (2o tránscrito) No No
DI2 (3er tránscrito) No No
DI2 (4o tránscrito) No
DI3 No No
GPx1 No
GPx2 No
GPx3 (1er tránscrito) No
GPx3 (2o tránscrito) No No
GPx4 No
GPx6 No
TR1 No
TR2 (2o tránscrito) No No
TR2 (3er tránscrito) No No
SelZ/TR3 (1er tránscrito) No
SelZ/TR3 (2o tránscrito) No
SelZ/TR3 (3er tránscrito) No
SelW (1er tránscrito) No No No
SelW (2o tránscrito) No No

Como puede observarse en la tabla, algunas secuencias aminoacídicas no contienen selenocisteína (U), a pesar de que la base de datos Ensembl la caracterizaba como tal. Estas mismas secuencias tenían un triplete TGA como stop codon. Por esto decidimos apartar estas secuencias temporalmente de nuestro estudio para hacer un análisis a parte posteriormente.

Después de haber hecho este análisis primario de las secuencias obtenidas, nos centramos en la secuencia codificante de cada selenoproteína, donde intentamos encontrar de manera manual (visualmente desde Ensembl) SNPs que pudieran afectar al codón TGA, polimorfismo que afectaría la codificación de la Sec. Buscábamos codones TGA con polimorfismo o codones similares a TGA que tuvieran variaciones que los pudieran convertir en TGA.

Tras ver que no había SNPs que afectaran al TGA, nos centramos en posibles polimorfismos que afectaran al elemento SECIS, de forma que buscamos posibles SNPs situados en la región 3'UTR de cada gen. Llegado a este punto, descartamos aquellas selenoproteínas que no tuvieran SNPs en la región 3'UTR. De las secuencias que nos quedaron, exportamos dicha región 3'UTR en formato FASTA desde Ensembl. Las secuencias 3'UTR de nuestras selenoproteínas pueden consultarse en los siguentes enlaces:

En estas regiones 3' UTR, no sólo localizamos los SNPs (y el resto de posibles variaciones) sino que también anotamos su posición dentro de la secuencia no codificante.

Posteriormente, introdujimos las secuencias 3'UTR en el programa SECISearch. Éste hizo predicciones de posibles elementos SECIS de cada región 3'UTR. En algunas de ellas no obtuvimos predicción alguna, en otras, obtuvimos una sola predicción, y en otros casos obtuvimos dos predicciones en una misma secuencia 3'UTR. En este último caso, para escoger entre las dos posibles opciones, en primer lugar nos fijamos en la puntuación (COVE score) de cada una y, en segundo lugar pero de mayor importancia, vimos qué predicciones de los elementos SECIS recaían en una región nucleotídica en la que hubieran polimorfismos (tanto SNPs como otras variaciones). Con la información de las posiciones de cada polimorfismo dentro de la región 3'UTR y los nucleótidos entre los cuales se formaba el elemento SECIS (predicho por SECISearch), generamos un archivo para cada secuencia 3'UTR que contuviera todas las posibles combinaciones para comparar las estructuras de los SECIS que se formaban al variar los nucleótidos afectados por los SNPs.


Con las secuencias que no contenían Sec y acababan en TGA como stop codon, nos preguntamos si cabía la posibilidad de que la base de datos contuviera algún error y, en realidad, este triplete TGA no fuera un stop codon sino que codificara para una selenocisteína pero que no hubiera sido identificado por los métodos informáticos actuales. Para aclarar esto, estudiamos de forma más precisa la región próxima al supuesto stop codon, tanto en la región codificante como en el 3'UTR. Tras haber completado este paso analizamos la región 3'UTR en SECISearch de, concretamente, el segundo y tercer tránscrito de la selenoproteína SelZ, los cuales se encontraban en esta situación (ver tabla).