Materiales y métodos
- Obtención de la secuencia de las selenoproteínas SelO y Sel2
- Obtención del genoma de los protistas
- Localización de la región donde se encuentra el gen de SelO/Sel2 en el genoma de los protistas
- Extracción de la región del genoma que correspondería a la selenoproteina
- Anotación del genoma con el programa exonerate y/o con el programa GeneWise
- Comparación de secuencias proteicas mediante T-Coffee
- Búsqueda de elementos SECIS
1- Obtención de la secuencia de las selenoproteinas SelO y Sel2
Las selenoproteínas cuya presencia queremos analizar en los protistas secuenciados durante este año son de la familia SelO y Sel2. Para realizar esta búsqueda necesitamos una secuencia proteica de referencia para cada familia. Estas secuencias las hemos buscado en la base de datos SelenoDB, en la que están disponibles las secuenciencias de las familias de selenoproteínas en algunas especies.
Para la familia SelO hemos encontrado las secuencias proteicas de las especies H. sapiens y S. cerevisiae. Hay que remarcar que la secuencia de S.cerevisiae que está disponible es un homólogo con cisteína.SelenoDB
En cambio, La selenoproteina Sel2 no está aún disponible en esta base de datos, y por eso la Universidad ha creado un fichero en el qual encontramos las secuencias de las demás selenoproteinas, incuida la secuencia de la Sel2 de la especie Plasmodium falciparum.Sel2>
2- Obtención del genoma de los protistas
En la página web de bioinformática hay disponible un fichero con un PATH para cada genoma de protista que ha sido secuenciado, incluyendo los que se han secuenciado este último año.
3- Localización de la región donde se encuentra el gen de SelO/Sel2 en el genoma de los protistas
Para localizar la región genómica en la que potencialmente se encuentra nuesta selenoproteína, hemos utilizado la herramienta tBLASTn. Los programas BLAST (Basic Local Alignment Search Tool) usan algoritmos eurísticos para encontrar con rapidez los aliniamientos locales con un alto score. Usando este tBLASTn, lo que hacemos es comparar la secuencia proteica de la selenoproteína de referencia (la secuencia query) con las secuencias de nucleótidos de la base de datos de protistas que nos ha proporcionado la universidad, que han sido traducidas para cada uno de los seis marcos de lectura.
En la base de datos que nos proporcionan, tenemos la secuencia genómica de diversas especies de protistas con las que comparar la proteína, y hay que hacer un análisis tBLASTn para cada una de las especies contra la selenoproteína query. Hemos diseñado un programa perl que nos permite automatizar el proceso, de forma que para cada especie, compara su genoma con la secuencia proteica de SelO/Sel2, y nos saca los resultados en ficheros separados para cada protista.
Estos ficheros contienen diversos alineamientos locales correspondientes a diversas regiones del genoma de los protisas. A cada región (contig) le corresponde un número de identificación, que nos servirá más adelante para seleccionar el alineamiento que nos interesa.
Para poder ejecutar el software NCBI BLAST hay que introducir los siguientes permisos en el shell:
$ export PATH=/cursos/BI/bin/ncbiblast/bin:$PATH
$ cp /cursos/BI/bin/ncbiblast/.ncbirc ~/
Después de esto introducimos el comando blastall, donde el fitxerquery.fa, será el archivo que contiene la secuencia de la selenoproteína de selenoDB, y el nombbddBLAST será el genoma del protista en el que realizamos la búsqueda. También le daremos un nombre a un archivo de salida.
blastall -p tblastn -i fitxerquery.fa -d nombbddBLAST -o fitxerdesortida
4- Extracción de la región del genoma que correspondería a la selenoproteína
Para la extracción de la región genómica que nos interesa, vamos a usar programas que forman parte del software de exonerate. Para ello daremos los permisos:
$ export PATH=/cursos/BI/bin/exonerate/i386/bin:$PATH
En la base de datos que nos proporciona la universidad, la información viene dada en forma de ficheros multifasta, uno para cada especie. Sin embargo, para extraer la región del genoma donde potencialmente se encuentra la selenoproteína , es necesario tener la información en forma de fichero fasta. Por eso, vamos a usar los programas fastaindex y fastafetch. Con el primero, creamos un índice de los diversos contigs que se encuentran en cada fichero multifasta, cada uno con su número de indentificación. Con el programa fastafetch, y usando el número de identificación del contig que nos interesa sustituyendo a nomseq, extraemos la secuencia del contig en el que se encuentra el alineamiento de interés.
$ fastaindex /cursos/BI/genomes/protists/2010/especie/genome.fa dm2.index
$ fastafetch /cursos/BI/genomes/protists/2010/especie/genome.fa dm2.index nomseq > nomseq.fa
Dentro del contig elegido, debemos cortar la secuencia donde potencialmente se encuentra nuestra selenoproteína. Para hacer esto, definimos las posiciones cromosómicas en las que empieza y acaba esta región, y las usamos en el programa fastasubseq, que nos cortará la secuencia por las posiciones indicadas.
$ fastasubseq nomseq.fa start length > genomic.fa
En cada secuencia, a la hora de indicar las posiciones de inicio y final de secuencia, hemos puesto dosmil o tresmil nucleótidos más por cada extremo (dependiendo del protista y del score del alineamiento), para asegurarnos de que estamos extrayendo la secuencia entera del gen.
5- Anotación del genoma con el programa exonerate y/o con el programa GeneWise
Una vez conocida la secuencia nucleotídica que engloba a nuestra selenoproteína, debemos saber dónde están los exones que la codifican. Para ello utilizamos primero el programa Exonerate.
La función que realiza Exonerate es alinear secuencias prediciendo cual podría ser la estructura exónica de la secuencia problema, es decir, la secuencia de nuestra selenoproteína en el protista que analizamos. Para llevar a cabo esta predicción, exonerate se basa tanto en análisis heurísticos como en programación dinámica.
En nuestro caso hemos utilizado una versión que permite la presencia de intrones en el alineamiento, pero también cambios en la pauta de lectura y cambios de fase en los exones cuando un codón es interrumpido por un intrón. Así, hemos intentado alinear la secuencia proteica de la selenoproteína query contra la secuencia nucleotídica del protista que estamos analizando. Esta secuencia nucleotídica de la que partimos es el fichero de salida que obtenemos después de hacer fastasubseq. El comando para ejecutar el Exonerate es el siguiente:
$ exonerate -m p2g --showtargetgff -q fitxerquery.fa -t genomic.fa
Para obtener resultados con una mayor sensibilidad puede ejecutarse el Exonerate en modalidad euxhastive:
$ exonerate -m p2g –exhaustive yes -q fitxerquery.fa -t genomic.fa
Otro programa que hemos utilizado para realizar alineamientos es Genewise. Este programa también compara la secuencia proteica de la selenoproteína query con la secuencia nucleotídica del protista que estemos analizando, permitiendo la presencia de intrones y el cambio en la pauta de lectura. Sus permisos son:
$ export PATH=/cursos/BI/bin:$PATH
$ export WISECONFIGDIR=/cursos/BI/soft/wise-2.2.0/wisecfg
6- Comparación de secuencias proteicas mediante T-Coffee
Para los casos en los que hemos obtenido alineamiento con el Exonerate pero que tenemos indicios de que no nos alinea la proteína completa y nos corta parte del exón final, hemos forzado el alineamiento completo de la siguiente manera:
- Hemos escogido la región nucleotídica que corresponde al último exón entero.
- Hemos traducido este fragmento mediante el fastatranslate, que es un software que incorpora Exonerate, manteniendo la pauta de lectura original. Este programa lo utilizamos mediante el comando $fastatranslate seguido del nombre de la secuencia a traducir.
- Realizamos un egrep sobre el anterior exonerate para seleccionar unicamente los exones que ha predicho en el genoma del protista.
- Con la aplicación fastaseqfromGFF obtenemos la secuencia nucleotídica correspondiente a los exones predichos.
- Traducimos esta secuencia a proteína con el fastatranslate. Obtenemos seis opciones de traducción. Elegimos la que se corresponde al primer exonerate comparando la secuencia de aminoácidos.
- Una vez elegida la secuencia la unimos con la parte que corresponde al último exón y que hemos traducido anteriormente.
- Partiendo de esta traducción y de la secuencia query de la selenoproteína de referencia, hemos hecho un alineamiento global mediante el programa TCOFFEE, el permiso y el comando para el cual, son los siguientes:
$ export PATH=/cursos/BI/bin:$PATH
$ t_coffee fitxerquery.fa fastatranslate.fa
7. Búsqueda de elementos SECIS
En los casos en los que encontremos una selenoproteína, deberíamos encontrar el elemento SECIS en la región upstream a la secuencia que la codifica. Por ello hemos considerado la búsqueda de este elemento, una herramienta para poder identificar la presencia de selenoproteínas.
Para realizar la búsqueda del elemento SECIS hemos utilizado la aplicación SECISearch, que encontramos en su página web: SECISearch. SECISearch se basa en tres elementos que caracterizan al elemento SECIS:
- estructura primaria (es decir, secuencias nucleotídicas consenso para este elemento)
- estructura secundaria (estructura de “tallo-bucle” que se forma a partir de la estructura primaria)
- análisis de la energía libre de la estructura
Deberemos tener en cuenta si la hebra de DNA en la que realizamos la búsqueda es la hebra "forward" o "reverse", y lo indicaremos en la casilla superior "Search complementary strand". Mantenemos el resto de parámetros estándar que aparecen por defecto.