Ahora usaremos un programa que forma parte de un software llamado Exonerate.
Primero hay que conseguir que la base de datos del genoma de protista esté indexada según los Scaffolds. Para esto introducimos usamos la herramienta Fastaindex con las comandas siguientes:
formatdb -i ruta_fichero_base_datos.fa -p F -n nuevo_nombre_base_datos.fa
La comanda - p F significa que desactivamos la función de péptidos, y por tanto, sólo tenemos activada la función de nucleótidos.
fastaindex ruta_fichero_base_datos.fa nuevo_nombre_base_datos.index
Después usamos la función Fastafetch para escoger el Scaffold que nos interesa:
fastafetch ruta_fichero_base_datos.fa nuevo_nombre_base_datos.index nº_scaffold_deseado > fichero_nº_scaffold_deseado.fa
De esta forma conseguimos que el fichero de la base de datos contenga una sola secuencia.
Ahora podemos usar la herramienta Fastasubseq, que nos permitirá extraer el fragmento de genoma que queremos y almacenarlo en un fichero de formato FASTA.
Introducimos las siguientes comandas:
export PATH=/cursos/BI/bin/exonerate/i386/bin:$PATH
fastasubseq nombre_base_datos_BLAST start length > fichero_corte.fa
- nombre_base_datos_BLAST: es el nombre de la base de datos en donde hemos hecho la búsqueda anterior.
- Start: posición de inicio del corte.
- Length: longitud del corte.
- fichero_corte.fa: nombre del fichero en el que queremos almacenar el resultado del corte.
Ahora usaremos los programas Exonerate y fastaseqfromGFF.pl para obtener la sección correcta de genoma que contiene nuestro corte sin intrones. Las comandas son las siguientes:
export PATH=/cursos/BI/bin:$PATH
Realizaremos la acción en dos pasos. En el primer paso obtenemos un fichero con la anotación en GFF:
exonerate -m p2g --showtargetgff -q fichero_query.fa -t fichero_corte.fa –exhaustive yes| egrep –w exon > fichero_resultado_exonerate.gff
- - m p2g: significa “model protein vs genome”.
- q: documento query.
- t: documento Target.
- -- exhaustive yes: para que la búsqueda sea más exhaustiva.
- | egrep –w exon: hacemos un pipe para almacenar sólo aquellas líneas del fichero que contengan la palabra “exon”. De esta forma, los intrones se descartan.
- > fichero_resultado_exonerate.gff: con un redireccionamiento de salida, creamos un fichero donde almacenamos el resultado de toda la operación.
En el segundo paso, mediante el programa fastaseqfromGFF.pl y un redireccionamiento de salida (>) extraemos la secuencia en un fichero FASTA que llamaremos cdna.fa:
fastaseqfromGFF.pl fichero_corte.fa fichero_resultado_exonerate.gff > cdna.fa
El software Exonerate también incorpora la herramienta fastatranslate que sirve para traducir una secuencia de DNA a proteína en las 6 pautas de lectura posibles.
Nuestro fichero contiene la proteína sin intrones, de forma que el primer aminoácido del fichero es el aminoácido por el que empieza nuestra proteína extraída. Así, tenemos que coger sólo la primera de las 6 pautas de lectura. Lo conseguimos con la siguiente comanda:
fastatranslate -F 1 cdna.fa > prot.fa
- prot.fa: nombre del fichero donde almacenamos la secuencia de aminoácidos de nuestra proteína extraída.
- - F 1: indica que cogemos sólo la primera pauta de lectura.
El reino de los protistas es tan variado que a menudo, la distancia filogenética entre especies de protistas es tan grande como la distancia entre protistas y vertebrados. Es por esto que las Queries que usaremos provienen tanto de otros protistas como de vertebrados e invertebrados.