MATERIALES Y MÉTODOS


El objetivo de este trabajo es identificar y anotar las selenoproteínas, los homólogos de selenoproteínas y las proteínas de maquinaria del genoma de Macaca nemestrina. Con este fin, se han realizado alineamientos basados en homología de secuencias mediante técnicas informáticas.

Obtención del genoma de M. nemestrina

El genoma problema, en este caso el de Macaca nemestrinapuede encontrarse en el siguiente directorio:
/cursos/BI/genomes/2015/Macaca_nemestrina/genome.fa
Del mismo modo, también se nos proporcionó el directorio en que el genoma se encontraba indexado, es decir, fragmentado en diversos contigs. Un conjunto de contigs forman grupos denominados scaffolds, en los cuales se buscarán secuencias homólogas a nuestras queries, que nos serán devueltas en forma de Hits (1).
/cursos/BI/genomes/2015/Macaca_nemestrina/index.fa

Obtención de las queries

Las Queries serán las secuencias proteicas para las cuales se ha buscado homología en el genoma de Macaca nemestrina. En este caso, han sido obtenidas de la base de datos de Selenoproteínas SelenoDB.Se ha llevado a cabo un proceso de selección a partir de las Queries de dicha base de datos teniendo en cuenta la literatura. Hemos tenido en cuenta:
  • Las Selenoproteínas anotadas en Homo sapiens, (DI1, DI2, DI3, GPx1, GPx2, GPx3, GPx4, GPx6, Sel15, SelH, SelI, SelK, SelM, SelN, SelO, SelR1, SelS, SelT, SelV, SelW1, SPS2, TR1, TR2, TR3).
  • Los demás miembros de sus familias y otras proteínas identificadas como homólogos de selenocisteína (GPx5, GPx7, GPx8, SelR2, SelR3, SelU1, SelU2, SelU3, SelW2).
  • Las secuencias descritas como maquinaria de traduccional (SecS, eEFsec, PSTK, SECp43, SBP2, SPS1, SPS2).
A pesar que, filogenéticamente, el genoma anotado más cercano al problema es el de Macaca mulatta, se ha utilizado el genoma de Homo sapiens, ya que es el genoma mejor anotado hasta el momento y los resultados no diferirían tanto respecto al uso del genoma de Macaca mulatta.

Automatización del proceso

Las queries obtenidas se almacenaron en distintos archivos, y en cada uno de ellos, las U presentes en las secuencias fueron sustituidas por X de forma manual, para que el programa de análisis funcionase correctamente. Para poder obtener la información de interés a partir de nuestras Queries y el genoma problema, primero se han exportado manualmente los programas esenciales a través del terminal:

$ export PATH=/cursos/BI/bin:$PATH fastaseqfromGFF.pl
$ export PATH=/cursos/BI/bin/ncbiblast/x64/bin:$PATH NCBI Blast
$ cp /cursos/BI/bin/ncbiblast/.ncbirc ~/ NCBI Blast
$ export PATH=/cursos/BI/soft/exonerate/x86_64/bin:$PATH Exonerate
$ export PATH=/cursos/BI/soft/t_coffee/x86_64/bin:$PATH T-coffee
$ export PATH=/cursos/BI/soft/genewise/x86_64/bin:$PATH GeneWise
$ export WISECONFIGDIR=/cursos/BI/soft/genewise/x86_64/wise2.2.0/wisecfg/ GeneWise

Se creó un programa Perl (consulta) que permitiría automatizar el proceso, y que incluye los programas anteriores. A continuación se desglosan las órdenes principales del proceso:

Blast

BLAST es una herramienta utilizada para comparar secuencias biológicas, ya sean secuencias de aminoácidos o de ácidos nucleicos. Concretamente, utiliza un algoritmo heurístico que busca similitud local entre dos secuencias alineándolas. Hay diferentes variantes de BLAST. En este caso, se ha utilizado t-blastn, que compara secuencias proteicas (Query) con secuencias nucleotídicas (genoma de M. nemestrina).
La orden, escrita de la siguiente forma, permite obtener un archivo tabulado donde encontraremos los hits con un e-value < 0,0001. Cuanto menor sea este valor, menos probabilidad habrá de que el alineamiento se haya dado al azar. También obtendremos otros parámetros como las posiciones inicial y final del alineamiento entre la Query y el genoma, la similitud entre ambas secuencias,etc.
$blastall -p tblastn -i query_aa.fa -d /cursos/BI/genomes/ 2015/Macaca_nemestrina /genome.fa -o > blast.fa -m 8 -e 0.0001
Los argumentos utilizados son los siguientes:
-p : Variante de BLAST a utilizar. En este caso, t-blastn.
-i : Input. En este caso, el fichero donde se encuentra nuestra Query.
-d : Base de datos a utilizar. En este caso, el genoma de Macaca nemestrina
-o : Output. Se trata del archivo que se creará con el resultado del BLAST
-m : Permite crear el formato tabulado. En este caso, con 8 filas.
- e : Permite seleccionar solo aquellos alineamientos con un e-value concreto, en este caso, < 0,0001.

Obtención de scaffolds de interés

FASTAINDEX
Como se ha mencionado previamente, nuestros profesores nos proporcionaron el genoma de Macaca nemestrina indexado, por lo que, en este caso, no se ha incluido esta orden en el programa de automatización. Sin embargo, en caso de que fuese necesario, la orden se introduciría de la siguiente forma:
$ fastaindex /cursos/BI/genomes/ 2015/Macaca_nemestrina /genome.fa genome.index
FASTAFETCH
A partir del genoma indexado, la orden Fastafetch permite obtener un archivo en el que encontraremos los identificadores de los Scaffolds que contienen Hits con un e-value < 0,0001.
$ fastafetch /cursos/BI/genomes/ 2015/Macaca_nemestrina /genome.fa genome.index JH594607.1 > JH594607.1.fa
JH594607.1 hace referencia al identificador de un Scaffold concreto, como ejemplo.

Obtención de la región donde se encontraria la selenoproteína de interés

FASTASUBSEQ
Una vez identificado el Scaffold en cuestión, es necesario ampliarlo tanto dowstream como upstream para obtener una secuencia genómica que incluya completamente la Selenoproteína que buscamos. En nuestro caso, esta ampliación será de 50000 nucleótidos por ambos lados. La orden para obtener un archivo con dicha secuencia se introducirá de la siguiente forma:
$ fastasubseq JH594607.1.fa 32500000 114000 > fastasubseq.fa
32500000 haría referencia al punto de inicio de la secuencia deseada, teniendo en cuenta los 50000 nucleótidos dowstream. 114000, por otra parte, hace referencia a la longitud de la secuencia, también teniendo en cuenta el alargamiento de 50000 nucleótidos upstream.

Predicción de la selenoproteína de interés

EXONERATE
La orden Exonerate alineará y comparará la región genómica obtenida mediante Fastasubseq con la Query inicial (Pairwise Sequence Comparison) y anotará los intrones y exones en dicha región. Antes de llevarla a cabo, sin embargo, es necesario abrir el archivo que contiene dicha región y cambiar los * por X para que el programa funcione correctamente. La orden se introduce de la siguiente forma:
$ exonerate -m p2g --showtargetgff -q query.fa -t fastasubseq.fa | egrep -w exon > exonerate.gff
Los argumentos utilizados son los siguientes:
-m : Hace referencia al tipo de comparación que se lleva a cabo. En este caso, p2g (protein to genome), indica que comparamos una secuencia proteica (nuestra Query) con una genómica (región obtenida mediante Fastasubseq).
-q : El archivo donde se encuentra nuestra Query.
-t : Hace referencia a la secuencia con la que comparamos nuestra Query, es decir, la región obtenida mediante Fastasubseq.
La segunda parte de la orden permite extraer los exones del archivo, es decir, las secuencias génicas codificantes en forma de cDNA, y guardarlos en uno nuevo.
También se ha llevado a cabo un Exonerate Exhaustive, que permite asegurarnos de que hemos incluido todos los exones posibles.
$ exonerate -m p2g --showtargetgff -q query.fa -t fastasubseq.fa --exhaustive | egrep -w exon > exonerate.gff
FASTASEQFROMGFF
Esta orden, incluída en el programa Exonerate, permite obtener un archivo con la secuencia exónica en formato FASTA a partir del archivo exonerate.gff:
$ fastaseqfromGFF.pl exonerate.gff > exon_nuc.fa
FASTATRANSLATE
Fastatranslate, también incluída en el programa Exonerate, permite convertir la secuencia de cDNA en una secuencia de aminoácidos. Esto es necesario para luego poder comparar la Query con la selenoproteína predicha a partir del genoma de Macaca nemestrina. Se generará un archivo que contendrá los seis marcos de lectura posibles (3 forward y 3 reverse), y se escogerá aquel que se corresponda con nuestra Query. La orden se introduce de la siguiente forma:
$ fastatranslate -F 1 exon_nuc.fa > pred_aa.fa
-F hace referencia al marco de lectura que se examina.
T-COFFEE
Esta orden permite realizar un alineamiento global de secuencias. En este caso, compararemos la Query con la secuencia proteica predicha y obtendremos un nuevo archivo. Si esta presenta una alta homología con nuestra Query, podría considerarse una candidata a Selenoproteína en el genoma de Macaca nemestrina. T-coffee se inserta de la siguiente forma:
$ t-coffee query_aa.fa pred_aa.fa > selenoprot_aa.fa

GeneWise

También puede llevarse a cabo una predicción de selenoproteínas con el programa Genewise. En este caso, se comparan directamente secuencias proteicas (Query) con secuencias nucleotídicas:
$ genewise -pep -pretty -cdna -gff -both query_aa.fa scaffold_fastasubseq.fa > genewise.fa
-pep : Muestra la traducción a proteína.
-pretty : Muestra el alineamiento pretty ASCII.
-cdna : Muestra la secuencia de cDNA predicha.
-gff : Muestra la predicción del gen en formato GFF.

Predicción de elementos SECIS

Para corroborar si las predicciones se corresponden con Selenoporteínas o no, hemos buscado los elementos SECIS de las secuencias predichas con el programa SECISearch3/Seblastian, que también predecirá Selenoproteínas homólogas a nuestra predicción, así como el número de exones.