Primer de tot, s'han de buscar en el nostre genoma tots els possibles elements SECIS que pot contenir. Això es realitza amb el programa SECISearch.pl, i la comanda seria la següent:
$ SECISearch.pl -p 's' genome.fa
El símbol 's' ens indica que realitzarà una cerca estàndard. Després d'obtenir tots els elements SECIS, es procedeix a seleccionar els òptims segons la seva energia lliure, i en el nostre cas, s'han seleccionat aquells que tenen una energia lliure inferior a -20 amb aquesta comanda:
$ SECISearch.pl -p s -e -20 -I genome.fa > secis20.fa
A partir d'aquí, es guarda el nom de cada scaffold que conté SECIS, tant de l'strand positiu com en el negatiu. Simplement, es busquen les línies amb “>” que són les que contenen el nom de l'scaffold. Per SECIS en l'strand positiu es porta a terme aquesta comanda:
$ egrep ">" genome.fa.std.secis | grep -v complemen | gawk -F: '{print $1}' | sed 's/>//' | sort | uniq > nombres_mas
on “nombre_mas” correspon a la carpeta on es redireccionen els scaffolds amb aquests SECIS. Amb SECIS en l'strand negatiu es fa servir la següent:
$ egrep ">" genome.fa.std.secis | grep complemen | gawk -F: '{print $1}'| sed 's/>//' | sort | uniq > nombres_menos
on es redirrecionen els scaffolds amb aquests SECIS a la carpeta “nombres_menos”. Ara ja ho tenim tot distribuït en les carpetes corresponents, i s'ha de procedir a extreure la seqüència dels scaffolds que ens interessen. Això es realitza mitjançant el programa retrieveseqs.pl amb la següent comanda:
$ perl retrieveseqs.pl -vf /disc8/genomes/A.anophagefferens/genome.fa nombres_mas > contigs_mas.fa
$ perl retrieveseqs.pl -vf /disc8/genomes/A.anophagefferens/genome.fa nombres _menos > contigs_menos.fa
cada una per la respectiva carpeta. Així s'obtenen els scaffolds d'interès i s'emmagatzemen en els arxius de “contigs_mas/menos.fa” en format FASTA. Per simplificar, es canvien els scaffolds amb SECIS en l'strand negatiu al positiu seguint aquesta comanda:
$ /disc8/bin/exonerate/bin/fastarevcomp contigs_menos.fa > contigs_menos.revcomp.fa
I per concatenar-los tots en un únic fitxer anomenat “contigs_todos.fa” es fa:
cat contigs_mas.fa contigs_menos.fa > contigs_todos.fa
Després de realitzar tot aquest procediment, s'ha de crear una carpeta anomenada “salidas” perquè es puguin redireccionar tots els fitxers obtinguts després d'haver extret 500 nucleòtids de cada SECIS predit. Per els que tenim en l'strand positiu es fa la següent comanda:
grep ">" secis20.fa | grep -v comple | perl -ne '/>(.+?):\[(\d+)/; my $a=$2-500; my $b=$2; my $name=$1; $name=~/(\d+)/; my $outname=$1; if ($b>=500){ system("perl retrieveseqs.pl -vfn contigs_todos.fa \"$name\" > contig_temp.fa; /disc8/bin/exonerate/bin/fastasubseq -s $a -l 500 contig_temp.fa> salidas/$outname.$b.subseq.fa") }'
i per el negatiu:
grep ">" secis20.fa | grep comple | perl -ne '/>(.+?):\[\d+,(\d+)/; my $a=$2-500; my $b=$2; my $name=$1; $name=~/(\d+)/; my $outname=$1; if ($b>=500){ system("perl retrieveseqs.pl -vfn contigs_todos.fa \"$name\" > contig_temp.fa; /disc8/bin/exonerate/bin/fastasubseq -s $a -l 500 contig_temp.fa> salidas/$outname.$b.menos.subseq.fa") }'
Si tot ha sortit com hauria, en la carpeta “salidas” ha d'haver molts fitxers per cada element SECIS anomenats “scaffolds_12345.678.subseq.fa” on 12345 és el número de l'scaffold i 678 el punt de començament del SECIS. També tenim fitxers *.menos que es refereixen als SECIS en l'strand negatiu, però que ja s'han canviat anteriorment.
A partir d'ara, s'assumeix que en el cas que el SECIS predit és real, aquest tindrà algun exó codificant i que conté selenocisteïna en els primers 500 nucleòtids al SECIS. Per això, s'han de traduir aquestes seqüències en les tres pautes de lectura i fer un BLAST contra la base de dades de NCBI per poder buscar seqüències conservades. Només s'han de mirar aquelles que no corresponguin a la nostra espècie a estudiar, ja que correspondrà a les selenoproteïnes que s'han trobat. Es volen trobar hits contra altres espècies que tinguin una U de la query alineada amb un * o una C en el subject. Això serà indicatiu que aquesta seqüència està conservada, i per tant, pot ser codificant.
Per poder traduir-les en les tres pautes de lectura es fa servir el programa trans.pl que tradueix per defecte en les tres pautes (no en sis, perquè no mira l'strand complementari) i po sa el codó TGA com una U i els STOP amb *. La comanda per traduir és la següent:
for n in $(/bin/ls salidas/*fa); do echo "traduciendo $n..."; perl trans.pl $n > $n.pep; done
i per concatenar tot el fitxer:
cat salidas/*pep > salidas/contigs_todos.pep
Ara ja sí, es porta a terme el BLAST contra NCBI, que és el blastcl3, amb aquesta comanda:
blastcl3 -p tblastn -i salidas/contigs_todos.pep -d nr > contigs-nr.out
Una vegada obtingut el fitxer del blast, es procedeix a revisar tots els alineaments i buscar en tots els organismes que no correponguin al nostre una alineació d'U amb * o C. Això es realitza amb un programa que selecciona aquest tipus d'alineaments que és el tblastn_hits.pl . Finalment, s'hauria de realitzar el genewise amb el millor hit obtingut del Blastcl3 contra l'scaffold d'on s'ha extret. Això ens donarà la predicció d'una proteïna en el genoma d'A. anophagefferens i després, s'ha de fer un BlastP d'aquesta contra la base de dades de NCBI per veure si troba proteïnes conegudes i descobrir alguna selenoproteïna nova.
Tornar a dalt