Introducció
En aquest apartat descriurem detalladament tots els passos que hem seguit per obtenir els nostres resultats.
En aquest apartat descriurem detalladament tots els passos que hem seguit per obtenir els nostres resultats.
Concretament de les diferents variants de BLAST hem fet servir el tBLASTn que serveix per trobar una seqüència d'aminoàcids dins d'un genoma. Utilitzant les seqüències query de SelK; hem realitzat tblastn contra la base de dades amb els genomes de protistes (/cursos/BI/genomes/protists/2010/nom_protist) utilitzant el següent programa: SelK.pl
Fastafetch:
Busquem el cromosoma on el BLAST ens diu que hauria d'estar el gen de la SelK:
fastafetch ruta_fitxer_base_dades.fa nou_nom_base_dades.index nº_chrom_desitjat > nº_chrom_desitjat.fa
Fastasubseq:
Retallem el tall de cromosoma on és més probable que es trobi aquest gen(amb 1000 nucleòtids de més per cada cantó):
fastasubseq nom_base_dades_BLAST start length > fitxer_tall.fa
Exonerate:
A partir de la query i la regió genòmica (tall) que hem extret generarem una anotació del gen que dóna lloc a aquesta proteïna mitjançant l'exonerate.
exonerate -m p2g --showtargetgff -q fitxer_query.fa -t fitxer_tall.fa > exonerate.fa
Després d'això utilitzàvem la següent comanda per obtenir un fitxer amb format .gff que el programa fastaseqfromGFF.pl podia utilitzar.
egrep –w exon exonerate.fa > fitxer_resultat_exonerate.gff
Obtenció de la seqüència de cDNA
Extraiem la seqüència que se'ns ha alineat a l'exonerate utilitzant el programa: fastaseqfromGFF.pl
fastaseqfromGFF.pl fitxer_tall.fa fitxer_resultat_exonerate.gff > cdna.fa
Fastatranslate:
Per mitjà d'aquesta aplicació traduïm el cDNA obtingut a proteïna.
fastatranslate -F 1 cdna.fa > prot.fa
Utilitzem el programa T_coffee per alinear la nostra seqüència query amb la seqüència de la proteïna obtinguda amb els passos anteriors:
t_coffee fitxer_query.fa prot.fa
Mitjançant el fastasubseq, extraiem un tall del cromosoma però aquesta vegada més gran que el tall que fèiem per buscar el gen en qü estió amb l'exonerate. Així posarem una "length" de 5000 per tenir un tall més gran i tenir més opcions de trobar els elements SECIS.
Si l'alineament predit era a la "strand" negativa, farem un fastarevcomp per tenir la seqüència correcta:
fastarevcomp fitxer_tall.fa > nom.fa
Un cop acabat, utilitzarem el programa SECISearch 2.19 (http://genome.unl.edu/SECISearch.html) per trobar els elements SECIS utilitzant totes les opcions de "pattern" i ens quedarem amb el resultat que tingui un cove score major.