Programes annexos
Indexació del genoma
Quan seleccionem el hit amb el qual volem continuar el protocol, realitzem el fastaindex. El genoma del qual disposem es tracta d'un arxiu multifasta, per aquesta raó, creem un índex d'aquest arxiu que ens permetrà posteriorment extreure la regió d'interès on podria estar la nostra selenoproteïna.
$ fastaindex /cursos/BI/genomes/protists/2010 genoma.index
Selecció de la regió a partir de la seqüència
Amb la comanda fastafetch, podem extreure la regió d'interès de l'arxiu .index que hem creat amb el fastaindex.
$ fastafetch /cursos/BI/genomes/protists/2010 genoma.index
identificador > regió.fa
Extracció de la regió: Fastasubseq
Com ja tenim un arxiu FASTA amb una única seqüència, podem utilitzar el programa fastasubseq per tal d'extreure la regió cromosòmica d'interès de la regió del genoma que hem extret amb el fastafetch.
$ fastasubseq /cursos/BI/genomes/2010/cromosoma.fa start length
> genomic.fa
Exonerate
Un cop tenim la seqüència de la selenoproteïna que busquem i hem extret la regió genòmica en la que es sospita d’una selenoproteïna fem córrer el programa exonerate. Aquest ens permet fer una anotació de la regió seleccionada direccionant el resultat en un fitxer.gff. Per extreure la seqüència de cDNA del fitxer.gff cap a un fitxer fasta farem servir el programa fastaseqfrom.pl.
Per poder-los fer anar caldrà posar les següents ordres al shell:
$ export PATH=/cursos/BI/bin:$PATH
$ exonerate -m p2g --showtargetgff -q Sel1.fa -t genomic.fa |
egrep -w exon > selprotistgenome.exonerate.gff
$ fastaseqfromGFF.pl genomic.fa selprotistgenome.exonerate.gff
> cDNA.fa
Un cop hem obtingut la seqüència del cDNA podem passar-la a seqüència proteica amb el fastatranslate. El programa ens tradueix la seqüència en totes les pautes possibles (2 direccions, 3 pautes). Direccionem el fitxer resultant cap a un fitxer que ens indiqui que es tracta de la seqüència proteica.
$ fastatranslate cDNA -F 1 > prot.fa