Materials i mètodes

Cerca de selenoproteïnes en Leishmania major:

1. Obtenció d´informació sobre Leishmania major.

2. Creació de l´arxiu multifasta.fa.
Baixar les seqüències de les selenoproteïnes conegudes de les espècies: Homo sapiens, Pan troglodytes, Mus musculus, Tetraodon nigroviridis, Drosophila melanogaster, Anopheles gambiae, Caenorhabditis elegans, Saccharomyces cerevisiae, Emiliana huxley, Leshmania major, Plasmodium falciparum, Toxoplasma gondii, Tripanosoma brucei i de la maquinària necessària per traduir selenoproteïnes de la base de dades SelenoDB.
Canviar totes les U de les seqüències per X.
Eliminar els símbols @, #, $ que estaven dins de les seqüències.

3. Fer un TblastN de l´arxiu multifasta.fa contra el genoma de L.major
Comandes:

 export PATH=$PATH:/disc8/bin/ncbiblast/bin
 blastall -p tblastn -i ./multifasta.fa -d /disc8/genomes/L.major/genome -o
~/novell/home/bioinformaticaABP/tblastnmajor.fa -F F

4. Creació de la taula parseblastmajortaula.fa amb el programa parseblast.pl. Les columnes seleccionades són: nom de la query, nom del contig, start, end, strand, frame, identitat, bit score, e-value i length.
Comandes:

 export PATH=./bin:$PATH
 parseblast.pl -W ./tblastnmajor1.fa | awk
'{print $12,$18, $19, $20, $21, $22, $6, $8,($9>0.0001)?"REMOVE":$9, $26, $12}'| 
 grep -v "REMOVE"> parseblastmajor.fa
 uniq -f 10 parseblastmajor.fa > parseblastmajortaula.fa  

Obtenim una taula amb els hits que tenen un e-value inferior a 0,0001 i ens quedem amb un hit per selenoproteïna.

 more parseblastmajortaula.fa | awk
'{print $1, $2, $3, $4, $5, $6, $7, $8, $9}'>parseblastmajortaula.fa


6. Es modifiquen els 4 últims noms de la taula obtinguda amb parseblast i posteriorment els seus equivalents en la taula multifasta.fa, ja que els noms donats no eren llegibles pel programa genewise ni pel programa exonerate:

Nom original
Nom nou a la taula parseblast
Nom nou a l´arxiu multifasta
Ehsep2_emilianahuxley
SPP01_#
SPP01 #
gi_82547872_1_
SPP02_#
SPP02 #
seltryp
SPP03_#
SPP03 #
Tb10.6k15
SPP04_#
SPP04 #


Fent aquests canvis hem generat un nou fitxer multifasta.fa i un nou fitxer parseblast.fa

7. Fer anar el programa.major.pl . Aquest programa inclou:
Girar tot el genoma de L.major amb fastarevcomp.
Fer un índex del genoma de Leshmania, tant positiu com negatiu, i del multifasta.fa amb fastaindex, per més endavant extreure les parts que ens interessen amb fastafetch.
Extracció de la seqüència amb la que es produeix el hit amb fastasubseq.
Allargar la seqüència extreta 3000 nucleòtids per davant i pel darrera si és possible. Per allargar-la utilitzem el genoma positiu o negatiu depenent del strand
Predicció de l´estructura exònica de la seqüència amb genewise.
Predicció de l´estructura exònica de la seqüència amb exonerate.
Canvi dels TGAs per UCAs (codó Serina) en la seqüència genòmica extreta amb fastafetch.
Fer segon genewise per a una predicció exònica, aquest cop el Subject no contindrà TGAs.
Comparació entre els tamanys dels genewise obtinguts, per tal de predir la probabilitat que sigui una selenoproteïna o no.
Creació d´un nou arxiu multifasta que contindà totes les selenoproteïnes del SelenoDB, i les seqüències dels hits significatius obtinguts amb el tblastn de L.major
Creació d´un arxiu amb la proteïna obtinguda del genewise per al seu ús en el tCOFFEE
Creació d´un arxiu amb el cDNA obtingut del genewise per al seu ús en el tCOFFEE

Per fer anar el nostre programa amb el genoma de L.major, primer cal tenir els programes exonerate i genewise en alguna carpeta i indicar a la terminal el camí que ha de seguir per poder-los executar.
També cal donar permís per executar el nostre programa i tenir la taula obtinguda amb parseblast i l´arxiu multifasta.fa en la mateixa carpeta on s´executa el programa.

Comandes:

export PATH=/disc8/bin/exonerate/bin:$PATH
export PATH=/disc8/bin:$PATH 
export WISECONFIGDIR=/disc8/soft/wise-2.2.0/wisecfg
chmod u+x programa.major.pl
chmod u+x fastaseqfromGFF.pl 
./programa.major.pl ./parseblastmajortaula.fa ./multifasta.fa 
						

8. Ens hem trobat que alguns arxius de genewise surten molt petits. Això pot ser causat per dos motius, perquè no existeix prou homologia, o perquè a l´interpretar la Selenocisteïna com a codó STOP s´atura l´aliniament.
És necessari allargar aquelles seqïències que han sortit curtes, per poder continuar treballant amb elles.
Per fer més fàcil la separació dels arxius que han aconseguit un aliniament més òptim, hem realitzat un programa programa.petitgran.pl que separa els arxius segons petits o grans en comparació amb el tamany de la proteïna original.

Després de fer el genewise hem obtingut alguns alineaments o bé massa curts, o bé que no contenien la selenocisteïna de la query que volíem alinear amb el nostre genoma (subject). Per solucionar aquest problema hem seguit el següent protocol:
En primer lloc, hem agafat l´alineament obtingut amb el genewise i hem identificat quina part de la query s´ha alineat (obtingut del multifasta) amb el subject.
En segon lloc, hem buscat en el nostre genoma la seqüència nucleotídica que s´ha alineat amb la query i l´hem extret (agafant des d´una mica abans i fins una mica després del final). Un cop obtinguda l´hem traduit a proteïna mitjançant el fastatranslate. Per triar quina és la pauta de lectura adequada, i per tant quina és la proteïna obtinguda del fastatranslate que hem d´agafar, hem mirat la proteïna obtinguda del genewise.
Ja per últim hem localitzat en l´output del fasta translate el tros que s´havia alineat amb la nostra proteïna i hem agafat per davant fins a la primera metionina i per darrera amb el primer codó STOP que no coincideixi amb la posició de la X de la query.

9. Per cada selenoproteïna realitzem un TCoffee entre les seqüència de totes les espècies inclosa la trobada amb genewise per L.major.

10. Per aquelles proteïnes que també es troben en L.major busquem si contenen SECIS amb el programa SECISSearch