Cerca de noves selenoproteïnes
L'estratègia que hem seguit per tal de trobar noves selenoproteïnes s'ha iniciat amb la cerca d'elements SECIS en tot el genoma de L. braziliensis. Això ho hem realitzat a través de la terminal a partir del programa SECISsearch.pl. El resultat obtingut ens mostra un arxiu amb tots els SECIS predits, aproximadament uns 576 .Per tal de poder agafar les prediccions més bones, hem utilitzat com a criteri el valor de l'energia lliure; establint que només els SECIS que presentin un valor d'energia lliure menor a -20 poden ser considerats com a potencials elements SECIS. Això ho realitzem a partir de la comanda següent:
$ SECISearch.pl -v -e -20 genome
A partir d'aquí se'ns genera un arxiu genome.fa.std.secis en el qual tenim totes les seqüències dels SECIS predites.
D'aquesta forma aconseguim passar de tenir 576 candidats a possibles SECIS a tenir-ne 301. Com que el SECISsearch et realitza la cerca tant en sentit forward com reverse, hem realitzat les següents comandes de manera que obtenim al final 2 arxius, un dels quals emmagatzema les seqüències dels SECIS que es troben en sentit forward i un altre arxiu on emmagatzema les seqüències en sentit reverse, d'aquesta forma en el moment de processar els resultats serà més fàcil. Aquest pas es realitza aplicant la següent comanda:
Per les strand (+):
$ egrep ">" genome.fa.std.secis | grep -v complemen | gawk -F: '{print $1}' | sed 's/>//' | sort | uniq > nombres_mas
Per les strand (-):
$ egrep ">" genome.fa.std.secis | grep complemen | gawk -F: '{print 1}'| sed 's/>//' | sort | uniq > nombres_menos
A partir d'aquí, els fitxers que obtenim contenen els identificadors corresponents a cada SECIS. Tot seguit apliquem el programa perl retrieveseqs.pl, el qual ens localitza en el genoma de L. braziliensis el número d'identificador i ens extreu la seqüència nucleotídica del còntig. La comanda utilitzada és la següent:
Per strand (+):
/retrieveseqs.pl -vf /disc8/genomes/L.braziliensis/genome.fa nombres_mas > contigs_mas.fa
Per strand (-):
/retrieveseqs.pl -vf /disc8/genomes/L.braziliensis/genome.fa nombres_menos > contigs_menos.fa
En el cas dels resultats corresponents a les strand - apliquem la comanda fastarevcomp per tal d'obtenir les strand +, d'aquesta forma podem adjuntar els dos fitxers en un a partir de la comanda cat:
$ cat contigs_mas.fa contigs_menos.fa > contigs_todos.fa
Posteriorment executem un programa perl a través de comandes en la terminal que permet, a partir de l'output anterior, restar uns 500 nucleòtids downstream en el cas dels SECIS localitzats en sentit forward i 500 nucleòtids upstream en el cas dels SECIS localitzats en sentit reverse. L'objectiu de treure aquest 500 nucleòtids abans de cada SECIS és localitzar una possible regió codificant d'una selenoproteïna. Cal esmentar que els SECIS es poden situar en una regió entre 500-1000 nucleòtids upstream de les regions codificants.
Els resultats obtinguts de les diferents seqüències es redireccionen cap a la carpeta salidas on els diferents arxius s'aniran anomenant segons el nom d'identificador i inici del SECIS ($outname.$b.mas/menos.subseq.fa).
Les comandes utilitzades en aquest procés es mostren a continuació:
Strand (+):
grep ">" genome.fa.std.secis | grep -v comple | perl -ne '/>(.+?):\[(\d+)/; my $a=$2-500; my $b=$2; my $name=$1; $name=~/gi.(\d+)/; my $outname=$1; if ($b>=500){ system("../retrieveseqs.pl -vfn contigs_mas.fa \"$name\" > contig_temp.fa; /disc8/bin/exonerate/bin/fastasubseq -s $a -l 500 contig_temp.fa> salidas/$outname.$b.subseq.fa") }'
Strand (-):
grep ">" genome.fa.std.secis | grep comple | perl -ne '/>(.+?):\[\d+,(\d+)/; my $a=$2-500; my $b=$2; my $name=$1; $name=~/gi.(\d+)/; my $outname=$1; if ($b>=500){ system("../retrieveseqs.pl -vfn contigs_menos.revcomp.fa \"$name\" > contig_temp.fa; /disc8/bin/exonerate/bin/fastasubseq -s $a -l 500 contig_temp.fa> salidas/$outname.$b.menos.subseq.fa") }'
Un cop extretes les possibles regions codificants on es pot localitzar el gen amb potencial per codificar per una selenoproteïna, les traduïm mitjançant el programa trans.pl, el qual tradueix per defecte 3 pautes, ja que no té en compte l'strand complementari. Per automatitzar el procés de traducció de tots els arxius, realitzem un programa bash, el qual permet que s'executi un programa perl amb tots els arxius que estan continguts en un directori:
for n in $(/bin/ls salidas/*fa); do echo "traduciendo $n..."; perl trans.pl $n > $n.pep; done
Els arxius que contenen les diferents pautes de lectura els concatenem en un sol fitxer i realitzem un tBLASTn d'aquestes vers la base de dades que conté una col·lecció de nucleòtids de totes les espècies (nr/nt). Els resultats obtinguts es mostren a la pàgina web o al document l.braziliensis-nr.out.
A partir dels resultats del tBLASTn hem aplicat un programa perl per tal de descartar els hits obtinguts amb Leishmania ja que el nostre objectiu és identificar selenoproteïnes noves i no pas les selenoproteïnes ja descrites. Ens interessa trobar hits significatius amb altres espècies on la "U" de la query (seqüència de Leishmania) s'alinïi amb un "*" o una "C" en el subject (selenoproteïna de la base de dades), sent indicatiu que aquesta seqüència es troba conservada, i per tant, que pugui ser codificant. Per automatitzar aquest procés s'ha usat un programa (perl kikeopus.pl).
Finalment s'han analitzat els resultats del tBLASTn i s'ha identificat un possible candidat a selenoproteïna.
La possible selenoproteïna identificada presenta el domini característic redox : C/UXXC/U.
Per a corroborar que es tracta d'una selenoproteïna no descrita anteriorment, s'ha agafat la seqüència d'aminoàcids de la possible selenoproteïna i s'ha realitzat un blastp vers la base de dades de proteïnes no-redundants(nr). No hem obtingut cap hit significatiu, així doncs, suposem que aquesta pauta de lectura no es tracta d'una regió codificant.