Predicció Selenoproteïnes en Leishmania mexicana

Materials i mètodes

Recerca de noves Selenoproteïnes:

Per dur a terme la cerca de noves selenoproteïnes, en primer lloc hem buscat tots els elements SECIS del nostre genoma mitjançant el programa SECISearch.pl
Comanda:

 ./SECISearch.pl -v /disc8/genomes/L.major/genome.fa

Aquí obtenim el següent fitxer: genome.fa.std.secis
Un cop hem obtingut l´arxiu amb tots els elements SECIS del genoma de Leishmania mexicana, utilitzem les següents comandes que ens ha facilitat el professor Charles Chapple:

1. Seleccionar els contigs que tenen SECIS mitjançant egrep ">" de l´arxiu. A continuació seleccionem aquells contigs del genoma que tenen els SECIS en el strand positiu i els guardem en un nou arxiu.
Fem el mateix pels contigs que tenen els SECIS en el strand negatiu.
Comandes:

● Strand positiu:

egrep ">" genome.fa.std.secis | grep –v complemen| gawk –F:‘{print$1}’ | sed’s/>//’ 
|sort | uniq > nombres_mas

● Strand Negatiu:

egrep ">" genome.fa.std.secis | grep complemen |gawk –F: ‘{print$1}’ | sed’s/>//’ 
|sort | uniq > nombres_menos

2. Extreure la seqüència dels contigs que ens interessen mitjançant el programa retrieveseqs.pl. Així obtenim dos arxius amb els contigs que tenien SECIS en cada strand en format FASTA.
Comandes:

● Positius:

 ./retrieveseqs.pl –vf /disc8/genomes/L.mexicana/genome.fa nombres_mas > contigs_mas.fa

● Negatius:

 ./retrieveseqs.pl –vf /disc8/genomes/L.mexicana/genome.fa nombres_menos > contigs_menos.fa

3. Canviem els contigs amb strand negatiu a strand positiu mitjançant el fastarevcomp.

Comanda:

/disc8/bin/exonerate/bin/fastarevcomp contigs_menos.fa > contigs_menos.revcomp.fa

4. Posem els dos fitxers junts.
Comanda:

cat contigs_mas.fa contigs_menos.fa > contigs_todos.fa

5. Crear un nou directori (anomenat "salidas") on aniran els fixers que crearem posteriorment.

6. Extraiem una regió (500 nucleòtids) 5´ de cada una de les prediccions.
Comanda:

● Strand positiu

 
grep ">" genome.fa.std.secis | grep –v comple | perl –ne '/>(.+?):\[(\d+)/;
 my $a=$2-500;my $b=$2; my $name=$1; $name=~/(\d+)/; my $outname=$1; if ($b>500)
 { system ("perl retrieveseqs.pl –vfn contigs_todos.fa \"$name\" > contig_temp.fa;
 /disc8/bin/exonerate/bin/fastasubseq -s $a -l 500 contig_temp.fa> salidas/$outname.
$b.subseq.fa") }'

● Strand Negatiu

grep ">" genome.fa.std.secis | grep comple | perl -ne '/>(.+?):\[\d+,(\d+)/; 
my $a=$2-500;my $b=$2; my $name=$1; $name=~/(\d+)/; my $outname=$1; if ($b>=500)
{ system("perl retrieveseqs.pl -vfn contigs_todos.fa \"$name\" > contig_temp.fa;
 /disc8/bin/exonerate/bin/fastasubseq -s $a -l 500 contig_temp.fa> salidas/$outname.
$b.menos.subseq.fa") }'

Així obtenim un fitxer per cada SECIS al directori que hem creat. En aquesta situació hem assumit que en el cas que el SECIS predit sigui real, aquest tindrà algun exó codificant que contingui selenocisteïna en els primers 500 nucleòds 5´ al SECIS. Tot i això, pot ser que aquesta assumpció no sigui correcta i l´exó en qüestió es trobi més lluny.

7. Traduir les seqüències en les 3 pautes de lectura mitjançant el programa trans.pl, que tradueix en 3 pautes de lectura enlloc de 6, ja que no mira el strand negatiu.A més a més, posa el TGA com "U" i els altres dos codons STOPs com "*".
Comanda:

for n in $(/bin/ls salidas/*fa); do echo "traduciendo $n..."; perl
 trans.pl $n > $n.pep; done

8. Concatenar-ho tot en un fitxer.
Comanda:

cat salidas/*pep > salidas/contigs_todos.pep

9. Fer un blast contra la base de dades nr per buscar seqüències conservades. Volem trobar hits contra altres espècies que tinguin una U a la query alineada amb un * o C al subject. Això serà indicatiu que aquesta seqüència està conservada i que, per tant, pot ser que sigui codificant.
Comanda:

blastcl3 -p tblastn -i salidas/contigs_todos.pep -d nr > contigs-nr.out

El blast obtingut és: L.mexicana-nr.out

10. Un cop obtingut el blast, hem executat el programa_buscar_U.pl per tal d'analitzar l'output d´una forma més senzilla. Aquest programa ens ha permès extreure els alineaments on hi ha una U i el seu corresponent e-value que, posteriorment, hem guardat en un document anomenat analisis_output_blast.txt
Comanda:

./programa_buscar_U.pl < L.mexicana-nr.out > analisis_output_blast.txt

11. Per a la cerca de noves selenoproteïnes es parteix de l´arxiu analisis_output_blast.txt. A partir d´aquest es busquen aquells alineaments que tinguin en el genoma de L.mexicana una U (i que per tant, pot codificar per una selenocisteïna) i qualsevol altre aminoàcid o un codó STOP, en l´altre genoma amb un e-value significatiu. A més, per confirmar la nostra hipòtesis observem si la seqüència està conservada més enllà d´aquest punt.

Cassago et al, 2006: Identification of Leishmania selenoproteins and SECIS element