L´hem extret del /disc8/ que ens ha proporcionat el professorat. Tot i que també hi ha altres bases de dades d´internet com NCBI i GeneDB on el podríem haver trobat.
Hem buscat totes les selenoproteïnes d´una sèrie d´espècies: Homo sapiens, Mus musculus, Drosophila melanogaster, Trypanosoma brucei i Leishmania major. Hem escollit específicament Trypanosoma, Drosophila i L. major perquè són les més properes a la nostra espècie i, H. sapiens i M. musculus perquè són les més interessants pel treball. Les seqüències d´aquestes selenoproteïnes les hem obtingudes de les següents bases de dades: SelenoDB, GeneDB i NCBI.
Hem començat doncs, fent un BLAST amb totes les selenoproteïnes trobades contra el nostre genoma de L. braziliensis. Més concretament, hem utilitzat el tBLASTn, que compara una seqüència de proteïnes contra una seqüència de nucleòtids. Per poder analitzar els resultats, considerem que un bon alineament serà aquell que tingui un E-value menor que 10e-4;.
Tenint en compte aquest fet, seleccionem només aquelles selenoproteïnes que corresponguin a aquest E-value i les analitzem més a fons. Cal dir que hi ha algunes selenoproteïnes que tenen un bon E-value en més d´una espècie (és normal que en humà i en ratolí les seqüències s´assemblin). En aquests casos, hem triat la d´E-value més baix.
Per realitzar aquest procés, hem utilitzat les comandes de la terminal:
- Creem una base de dades, on genome.fa és on es troba el genoma de la nostra espècie a analitzar: Leishmania braziliensis.
$ formatdb -i genome.fa -p F -n genome.fa
- Fem el tBLASTn per veure quines selenoproteïnes poden trobar-se al nostre genoma. On fitxerquery.fa és l´arxiu amb totes les selenoproteïnes que volem analitzar. El fitxerdesortida és el nom que li posem a l´output. Amb l´opció -m 9, ens mostrarà un resum de les posicions que ocupen els alineaments de blast. Tanmateix, la opció -FF permet eliminar un dels filtres per defecte del programa tBLASTn el qual exclou les seqüències amb regions de baixa complexitat (seqüències repetitives). En aquest moment tenim totes les seqüències alineades amb diferents E-values.
$ blastall -p tblastn -i fitxerquery.fa -d genome.fa -o fitxerdesortida -FF
- Per poder comparar millor tots els resultats hem realitzat un Parseblast , que és un programa que resumeix tots els resultats obtinguts en el tBLASTn. Per executar-lo farem servir les següents comandes, on fitxerquery.fa és l´arxiu que conté totes les selenoproteïnes que volem analitzar.
$ chmod u+x parseblast.pl
$ export PATH=./bin:$PATH
$ parseblast.pl fitxerquery.fa > parseblast.seleno.all
- A partir d´aquí, hem d´escollir els millors alineaments. Per fer-ho, seguim la premissa que un bon alineament ha de tenir un E-value menor que 10e-4. Així doncs, hem automatitzat el procés amb un programa perl que ens busca tots els alineaments que tenen un E-value menor o igual que 10e-4 i que ens elimina els alineaments que no considerem com a bons (E-value > 10e-4). D´aquesta manera reduïm el número d´alineaments i ens quedem amb aquells que poden contenir selenoproteïnes.
$ parseblast.seleno.all < programaperl > parseblast.seleno.10e-4
$ parseblast.seleno.10e-4 | grep SelT | sort -gk 9 > parseblast.SelT
Per obtenir la seqüència genòmica de cada regió d´interès, cal realitzar els següents passos:
- Es realitza l´índex del genoma
$ fastaindex genome.fa genome.index
- Extraiem la seqüència que conté la regió d´interès a partir de l´índex. També necessitem les coordenades de la seqüència de la selenoproteïna, que obtenim del tBLASTn realitzat anteriorment. A continuació mostrem la comanda utilitzada, on coordenadesatallar és l´identificador "gi" que conté la seqüència on s´ha produït l´alineament, i seq.fastafetch.fa és el nom que li donem a l´output.
$ fastafetch genome.fa genome.index coordenadesatallar > seq.fastafetch.fa
- Extraiem la regió d´interès a partir de la seqüència obtinguda en el pas anterior. Inici és on comença la nostra query i llargada, com n´és de llarga (final - inicial). En aquest pas d´extracció de la regió, per assegurar-nos que no tallem cap exó i que podrem incloure l´element SECIS, agafem 3000 nucleòtids més per davant i 3000 més per darrere, fem els càlculs corresponents i afegim els resultats a la comanda fastasubseq.
$ fastasubseq seq.fastafetch.fa (inici) (llargada) > fastasubseq.raw.fa
Aquest procés d´extracció del genoma hem decidit automatitzar-lo, creant un programa perl que és capaç de donar-nos els números d´inici i llargada que necessitem per fer el fastasubseq.
- Només en els casos que la seqüència es trobi en sentit revers, caldrà utilitzar la següent comanda per poder girar la seqüència.
$ fastarevcomp fastasubseq.raw.fa > fastarevcomp.fa
Ara ja tenim la regió del genoma que ens interessa i podem seguir treballant per trobar les coordenades dels exons i la proteïna predita.
Per fer aquest pas hem utilitzat tant el programa EXONERATE com el GENEWISE. Hem utilitzat el Genewise com a primera opció.
- L´EXONERATE ens permet realitzar una predicció de l´estructura exònica de la possible selenoproteïna. Per executar-lo utilitzem la comanda següent on: -m és el model que volem executar, amb --showtargetgff li ensenyem les coordenades amb un format determinat (ff), -q és el fitxer que té la seqüència i -t és el fitxer contra el qual fem l´alineament. Amb la comanda que hem afegit al final "egrep -w exon" el que estem fent és agafar totes les files on posa "exon" i les posem juntes (que són les que ens interessen).
$ exonerate -m p2g --showtargetgff -q seq.selenoprot -t fastasubseq.raw.fa | egrep -w exon > exonerate.gff
La versió d´Exonerate que hem usat no és capaç de proporcionar el cDNA i d´extreure de la seqüència genòmica els introns, pel que s´a usat un programa perl anomenat fastaseqfromGFF.pl, que extreu la seqüència de cDNA de l´arxiu gff obtingut de l´Exonerate:
$ fastaseqfromGFF.pl fastasubseq.raw.fa exonerate.gff
- Per executar el GENEWISE es necessita la seqüència de la selenoproteïna que estem estudiant i la regió genòmica d´interès que hem extret anteriorment. El programa ens fa un alineament d´aquestes dues seqüències i com a resultat ens dóna aquest alineament i també ens dóna la seqüència de la proteïna predita. La comanda per executar Genewise és la següent, on seq.selenoprot és la seqüència de la selenoproteïna que estem estudiant i fastasubseq.raw.fa és la regió genòmica que hem extret anteriorment:
$ genewise -pep -pretty -cdna -gff seq.selenoprot fastasubseq.raw.fa
- Cal esmentar que l´Exonerate ens mostra tots els possibles alineaments (és a dir, totes les possibles prediccions de proteïnes); mentre que el Genewise ens mostra el millor alineament. Si la seqüència que estem analitzant es troba en sentit revers, a la comanda anterior caldrà afegir-hi: "-trev".Aquesta opció s´executa en el Genewise perquè a diferència de l´Exonerate, el Genewise solsament mira els alineaments en la strand positiva.
El que ens interessa, tant en l´EXONERATE com en el GENEWISE, és la seqüència de cDNA, així que la guardem com un arxiu de text per poder buscar-hi els diferents ORFs. Així doncs, fem un fastatranslate i ho traduïm a proteïna. En aquesta comanda, seq.cDNA és la seqüència de cDNA extreta i proteina.fa és l´output del fastatranslate.
$ fastatranslate seq.cDNA > proteina.fa
En l´output tenim els 6 ORFs possibles. Per escollir quin és el millor i per tant, quin és la nostra proteïna predita, fem un BLASTp de l´arxiu on hi ha els 6 ORFs (proteina.fa) contra la seqüència de la selenoproteïna d´interès. Passos a seguir:
Observant els resultats d´aquesta última comanda, veiem com un dels ORFs és el que té un hit més elevat. Així, aquest serà la nostra proteïna predita.
Un cop predita la nostra proteïna hem utilitzat el programa Tcoffee per tal de fer un alineament múltiple de seqüències ortòlogues a la proteïna trobada . Per fer aquests alineaments el programa et compara primer les seqüències per parelles produint una sèrie d´alineament globals i locals que acaben finalment combinant-se en un alineament múltiple. L´alineament múltiple obtingut ens permet observar si en diferents espècies hi ha conservaciò de la seqüèncie predita.
Finalment hem buscat en la base de dades Interpro, dominis funcionals de les proteïnes predites.
Aquesta base de dades conté famílies de proteïnes, dominis, regions, i repeticions on les característiques trobades en proteïnes conegudes poden ser aplicades a seqüències de proteïnes noves.