Predicció Selenoproteïnes en Leishmania mexicana

Materials i mètodes

Cerca de selenoproteïnes en Leishmania mexicana:

1. Obtenció d´informació sobre Leishmania mexicana.

2. Creació de l´arxiu multifasta_mexicana.fa:
● Obtenció del primer multifasta_major.fa mitjançant el programa.major.pl
● Canviar els noms de les proteïnes de L.major.
● Canviar aquelles seqüències de L.major que han estat allargades.

3. Fer un TblastN de l´arxiu multifasta_major.fa contra el genoma de L.mexicana
Comandes:

 export PATH=$PATH:/disc8/bin/ncbiblast/bin

 blastall -p tblastn -i ./multifasta_major.fa -d /disc8/genomes/L.mexicana/genome -o
~/novell/home/bioinformatica/tblastnmexicana_major.fa -F F

4. Creació de la taula parseblast_mexicana.fa amb el programa parseblast.pl. Les columnes seleccionades són: nom de la query, nom del contig, start, end, strand, frame, identitat, bit score, e-value i length.
Comandes:

 export PATH=./bin:$PATH

 parseblast.pl -W ./tblastnmexicana_major.fa|awk '{print $12,$18, $19, $20, $21, $22, $6,
$8,($9>0.0001)?"REMOVE":$9,$26,$12}'| grep -v "REMOVE"> parseblastmexicana1.fa

 uniq -f 10 parseblastmexicana1.fa > parseblast_mexicana.fa

● Obtenim una taula amb els hits que tenen un e-value inferior a 0,0001 i ens quedem amb un hit, el millor, per selenoproteïna.

5. Fer anar el programa.mexicana.pl. Aquest programa inclou:
● Girar tot el genoma de L.mexicana amb fastarevcomp.
● Fer un índex del genoma de Leshmania, tant positiu com negatiu, i del multifasta.fa amb fastaindex, per més endavant extreure les parts que ens interessen amb fastafetch.
● Extracció de la seqüència amb la que es produeix el hit amb fastasubseq.
● Allargar la seqüència extreta 3000 nucleòtids per davant i pel darrera si és possible. Per allargar-la utilitzem el genoma positiu o negatiu depenent del strand
● Predicció de l´estructura exònica de la seqüència amb genewise.
● Predicció de l´estructura exònica de la seqüència amb exonerate.
● Canvi dels TGAs per UCAs (codó Serina) en la seqüència genòmica extreta amb fastafetch.
● Fer segon genewise per a una predicció exònica, aquest cop el Subject no contindrà TGAs.
● Comparació entre els tamanys dels genewise obtinguts, per tal de predir la probabilitat que sigui una selenoproteïna o no.
● Creació d´un arxiu amb la proteïna obtinguda del genewise per al seu ús en el tCOFFEE
● Creació d´un arxiu amb el cDNA obtingut del genewise per al seu ús en el tCOFFEE

Per fer anar el nostre programa amb el genoma de L.mexicana, primer cal tenir els programes exonerate i genewise en alguna carpeta i indicar a la terminal el camí que ha de seguir per poder-los executar.
També cal donar permís per executar el nostre programa i tenir la taula obtinguda amb parseblast i l´arxiu multifasta.fa en la mateixa carpeta on s´executa el programa.

Comandes:

export PATH=/disc8/bin/exonerate/bin:$PATH
export PATH=/disc8/bin:$PATH 
export WISECONFIGDIR=/disc8/soft/wise-2.2.0/wisecfg
chmod u+x programa.mexicana.pl
chmod u+x fastaseqfromGFF.pl 
./programa.mexicana.pl ./parseblast_mexicana.fa ./multifasta_major.fa

8. Ens hem trobat que alguns arxius de genewise surten molt petits. Això pot ser causat per dos motius, perquè no existeix prou homologia, o perquè a l´interpretar la Selenocisteïna com a codó STOP s´atura l´aliniament.
És necessari allargar aquelles seqïències que han sortit curtes, per poder continuar treballant amb elles.
Per fer més fàcil la separació dels arxius que han aconseguit un aliniament més òptim, hem realitzat un programa programa.petitgran.pl que separa els arxius segons petits o grans en comparació amb el tamany de la proteïna original.

● Després de fer el genewise hem obtingut alguns alineaments o bé massa curts, o bé que no contenien la selenocisteïna de la query que volíem alinear amb el nostre genoma (subject). Per solucionar aquest problema hem seguit el següent protocol:
En primer lloc, hem agafat l´alineament obtingut amb el genewise i hem identificat quina part de la query s´ha alineat (obtingut del multifasta) amb el subject.
En segon lloc, hem buscat en el nostre genoma la seqüència nucleotídica que s´ha alineat amb la query i l´hem extret (agafant des d´una mica abans i fins una mica després del final). Un cop obtinguda l´hem traduit a proteïna mitjançant el fastatranslate. Per triar quina és la pauta de lectura adequada, i per tant quina és la proteïna obtinguda del fastatranslate que hem d´agafar, hem mirat la proteïna obtinguda del genewise.
Ja per últim hem localitzat en l´output del fasta translate el tros que s´havia alineat amb la nostra proteïna i hem agafat per davant fins a la primera metionina i per darrera amb el primer codó STOP que no coincideixi amb la posició de la X de la query.

9. Per cada selenoproteïna realitzem un TCoffee entre les seqüència de totes les espècies inclosa la trobada amb genewise per L.mexicana.

10. Per aquelles proteïnes que també es troben en L.mexicana busquem si contenen SECIS amb el programa SECISSearch