Protocolo
Para elaborar nuestro trabajo hemos seguido el siguiente protocolo:
1. Primero de todo, introducir estas comandas para poder ejecutar los programas desde las terminales del Campus del Mar:
- $export PATH=/cursos/BI/bin/ncbiblast/bin:$PATH
- $ cp /cursos/BI/bin/ncbiblast/.ncbirc ~/
- $ export PATH=/cursos/BI/bin/exonerate/i386/bin:$PATH
- $ export PATH=/cursos/BI/bin:$PATH
- $ export WISECONFIGDIR=/cursos/BI/soft/wise-2.2.0/wisecfg
2. Crear una base de datos para cada genoma de los protistas a analizar utilizando el documento proporcionado por el profesorado que se pueden encontrar en la siguiente dirección. La comanda utilizada es la siguiente: $ formatdb -i direccion_genoma -p F -n bd_protista
Donde bd_protista es el fichero de salida en el que tendremos guardada la base de datos.
3. Obtención de las secuencias de las selenoproteínas (familia GPX): buscar las selenoproteínas conocidas en humano y/o en otros organismos en la base de datos del SelenoDB. Cuando tenemos todas las secuencias de las selenoproteínas, se debe comprobar si éstas contienen el aminoácido selenocisteína o son homólogos en cisteína y se guarda la secuencia: $ emacs proteina_GPxX_human.fa
En nuestro caso, usaremos las secuencias proteicas de humano ya que es el organismo en el que se han descrito más miembros de la familia GPX.
4. Alinear las secuencias de cada GPx con los genomas de los protistas mediante el programa blastall: $ blastall -p tblastn -i proteina_GPxX_human.fa -d bd_protista -o Blast_GPxX_human_contra_protista -F F
Realizaremos un tBLASTn ya que es el tipo de Blast que te permite comparar tu secuencia aminoacídica contra una base de datos nucleotídica después de ser traducida a proteína en los 6 posibles marcos de lectura.
La indicación -F F sirve para que el programa no contemple los fragmentos que contengan regiones de baja complejidad a la hora de alinear ambas secuencias. Estas regiones se definen por contener zonas que tienen uno o más aminoácidos sobrerepresentados, y pueden dar una puntuación superior al alineamiento que no sería informativa.
Blast_GPxX_human_contra_protista es el nombre del documento output donde tendremos el resultado del tBLASTn.
5. Analizar los resultados del alineamiento. Miramos la longitud, puntuación y e-value de cada uno. Anotamos si el hit es significativo y si se ha alineado la selenocisteína con un codón stop o con una cisteína. Para poder ver los resultados: $ more Blast_GPxX_human_contra_protista
Así tendremos las regiones del genoma del protista que pueden codificar para proteínas homólogas a la nuestra. El problema es que el genoma contiene tanto intrones como exones, por lo que tendremos que seleccionar solamente las partes codificantes del genoma para poder anotar la proteína resultante. Para esto, podemos usar dos programas distintos: Exonerate y Genewise. Empezaremos explicando como continuamos el trabajo usando el primer programa.
6. Utilizando el programa Exonerate:
Después de analizar el BLAST guardaremos la región de los scaffolds que se hayan alineado bien:
- Crear un archivo que contenga la información de todos los scaffolds: $ fastaindex direccion_genoma genoma_protista.index
Elegir el scaffold que se haya alineado bien: scaff_genoma_GPxX_protista.fa
- Cortar la región del scaffold que nos interesa (donde está la selenocisteína):$ fastasubseq scaff_genoma_GPxX_protista.fa start length > seleccion_scaff.fa
Cuando seleccionamos la longitud del fragmento que queremos cortar hemos de tener en cuenta que posteriormente querremos buscar el elemento SECIS que se encuentra en el extremos 3' UTR, por lo que cortaremos 5000 posiciones por delante de la primera del hit y daremos una longitud de 10000 para asegurarnos de coger toda la proteína. Hay que tener cuidado si el hit se encuentra en la hebra negativa, ya que en este caso el inicio está en el otro extremo.
7. Para saber cuántos exones tiene la posible selenoproteína y su secuencia: $ exonerate -m p2g --showtargetgff -q proteina_GPxX_human.fa -t seleccion_scaff.fa
Y guardar en un archivo tipo gff: $ exonerate -m p2g --showtargetgff -q proteina_GPxX_human.fa -t seleccion_scaff.fa | egrep -w exon > trozo_fragmento.fa.exonerate.gffMediante la comanda egrep -w seleccionamos solamente las líneas en las que se encuentre la palabra exón. El resultado de esto lo redireccionaremos a un documento en formato gff.
8. Obtener el cDNA correpondiente al fragmento que solamente contiene los exones con el programa fastaseqfromGFF.pl: $ fastaseqfromGFF.pl seleccion_scaff.fa seleccion_scaff.fa.exonerate.gff
9. Mirar lo obtenido: $ more seleccion_scaff.fa.exonerate.gff
Obtendremos las seis posibles traducciones de la secuencia del cDNA en los seis posibles marcos de lectura. Escogemos la traducción a proteína que esté en el marco de lectura correcto. Se ha de intentar que la proteína no contenga codones stop en su interior.
Guardamos la secuencia seleccionada: $ emacs input_GPxX_protista.fa10. Además del Exonerate, se utiliza el programa Genwise para deducir los intrones y exones: $ genewise -pep -pretty -cdna -gff sel15human.aa.fa genomic.fa
A este programa se le ha de especificar si el hit se encuentra en la hebra negativa, ya que sino por defecto, dará las traducciones solamente considerando los marcos de lectura de la hebra positiva. Se ha de seleccionar también la traducción correcta.
A partir de aquí se puede seguir con cualquiera de los cDNAs obtenidos, ya sea desde Exonerate o Genewise, ya que con ambos obtenemos como input un documento GFF.
11. Traducir la secuencia mediante fastatranslate y guardar la traducción: $ fastatranslate input_GPxX_protista.fa > output_GPxX_protista.fa
Ahora hemos obtenido la traducción a proteína del cDNA que habíamos seleccionado anteriormente
12. Alinear la última secuencia proteica obtenida con la proteína inicial (humana) con el programa T-coffee:$ t_coffee proteina_GPxX_human.fa output_GPxX_protista.fa y lo redireccionamos a un documento.
13. Por último, utilizar el programa online SECISEARCH que a partir de la proteína predicha encuentra las posibles regiones SECIS.