Materials i mètodes

1. Obtenció dels genomes
2. Obtenció de les seqüències de les selenoproteïnes
3. Localització de la regió d'un gen: tBLASTn i valoració dels hits significatius
4. Extracció de la regió genòmica corresponents a les seqüències a estudiar
5. Generació d'una subseqüència d'aquesta regió
6. Predicció d'exons amb Exonerate
7. L'alternativa: GeneWise
8. Producció del cDNA i la proteïna corresponents
9. Aliniament de les dues proteïnes amb T-Coffee
10. Cerca d'elements SECIS

1. Obtenció dels genomes

La cerca de selenoproteïnes l'hem realitzada sobre els genomes seqüenciats el 2008, 2009 i 2010. Podem veure'ls a la carpeta genomes de protistes.

2. Obtenció de les seqüències de les selenoproteïnes a estudiar

Les seqüències de les quatre selenoproteïnes les extraiem de la base de dades SelenoDB . En cas que no aparegui en aquesta base de dades, les extraiem de la carpeta TARBALL. En la major part dels casos, se'ns proporciona la seqüència de la mateixa selenoproteïna en diversos organismes. Com a criteri general, hem decidit agafar la seqüència de l'organisme més proper filogenèticament a l'organisme sobre el qual fem la cerca. No obstant, cada cas ha estat diferent. En Sel M, hem agafat la seqüència d'Homo sapiens, a Sel3, Plasmodium falciparum, a Fep15, Danio rerio (zebrafish) i a Sel15, C. Elegans. Introduim aquest seqüència en un emacs i la identifiquem com a Nomproteina.fa. Cal que substituïm la selenocesteïna que apareix com una U per una X per a facilitar l'execució de les ordres posteriors.

3. Localització de la regió genòmica d'un gen: tBLASTn

TBLASTn és un programa que compara una seqüència proteica amb una base de dades de nucleòtids, en aquest cas, la proteïna que cerquem i el genoma de l'espècie on la busquem. Per a fer-ho, tradueix totes les seqüències nucleotídiques de la base de dades a proteïna considerant els sis marcs de lectura possibles. Posteriorment, les compara amb la selenoproteïna i ens mostra els possibles hits a la pantalla.
Per extreure el software necessari per la utilització d'aquest programa és necessari donar aquestes dues ordres al shell:

$ export PATH=/cursos/BI/bin/ncbiblast/bin:$PATH
$ cp /cursos/BI/bin/ncbiblast/.ncbirc ~/

Per a introduir les ordres al shell i executar el programa teclegem la primera comanda, i per veure si el procés ha anat bé i quin és el resultat obtingut, la segona:

$ blastall -p tblastn -i proteina.fa -d genoma -o proteinavsgenoma.tblastn
$ more proteinavsgenoma.tblastn.fa

Per a accelerar la cerca de les selenoproteïnes, vam automatitzar aquest pas creant un programa anomenat BLASTot.pl . Vam crear quatre carpetes corresponents a les quatre selenoproteïnes (Sel3, SelM, Fep 15 i Sel15). Dins de cada carpeta hi havia els genomes dels protistes (2008, 2009 i 2010) i la seqüència de la selenoproteïna escollida per la cerca. BLASTot.pl va fer els tBLASTn de forma simultània i va mostrar els resultats obtinguts en cada espècie de protista en forma de dos documents. En un primer document es mostraven tots els hits obtinguts en aquella espècie i en aquella selenoproteïna concreta i en un segon document s'indicaven només els hits significatius. Els hits significatius els vam obtenir afegint un filtre que només ens mostrava aquells que tenien un e-value inferior a 10-3. Aquests hits van ser considerats selenoproteïnes potencials i vam avançar en la cerca.

4. Extracció de la regió genòmica corresponents a les seqüències a estudi

Després d'esbrinar en quina regió del genoma es troba la seqüència gènica de la nostra hipotètica selenoprotïna, cal que extraiem en un fitxer diferent aquesta regió. En primer lloc, creem un fitxer anomenat especie.index en que apareixen per ordre el nom de les diferents regions en les quals està dividit el genoma, que poden ser cromosomes, scaffolds, etc. Aquest pas està automatitzat pel programa Index.pl . A cada regió que extraiem li donem un número, seguint el patró d'exemple. Així doncs, utilitzant la comanda fastafetch podem tallar la regió que ens interessa. Aquest seguit de passos es fan de la següent manera:

$ fastaindex genoma.fa especie.index
$ fastafetch genoma.fa especie.index nomseqüència > proteinaespecie.regiox.fa

5. Generació d'una subsequència d'aquesta regió

Tot seguit, a partir d'aquesta regió seleccionem el nombre de bases aproximades que ens interessen, en funció de la llargada del gen original de la proteïna. En general, agafem la llargada aproximada del gen des del punt d'inici upstream i downstream, de manera que seleccionem una regió el doble de gran que el gen, aproximadament. Per fer-ho utilitzem les següents comandes i les redireccionem a un nou fitxer:

$ export PATH=/cursos/BI/bin/exonerate/i386/bin:$PATH
$ fastasubseq proteinaespecie.regiox.fa puntinici llargada > proteinaespeie.extretx.fa

6. Predicció d'exons amb Exonerate

Després d'extreure la regió genòmica corresponent a la nostra proteïna, generem una anotació del gen corresponent a aquesta proteïna mitjançant Exonerate . Exonerate és un software que ens proporciona la seqüència exònica de cDNA de la proteïna en format GFF. Un dels programes que conté, FastaseqfromGFF.pl ens ha permès extreure la seqüència exònica de cDNA en format Fasta. Les comandes introduïdes al shell són les següents:

$ exonerate -m p2g --showtargetgff -q proteina.fa -t proteinaespecie.extretx.fa | egrep -w exon > proteinaespecie.extretx.exonerate.gff

$ export PATH=/cursos/BI/bin:$PATH
$ fastaseqfromGFF.pl genomic.fa proteinaespècie.exonerate.gff

7. L'alternativa: Genewise

En cas que el resultat de l'exonerate sigui erroni o no existeixi, utilitzarem el programa Genewise, que en compararà directament la seqüència extreta amb la proteïna. El cridem de la següent manera:

$ export PATH=/cursos/BI/bin:$PATH
$ export WISECONFIGDIR=/cursos/BI/soft/wise-2.2.0/wisecfg
$ genewise -pep -pretty -cdna -gff proteina.fa proteinaespecie.extret1.fa

8. Producció del cDNA i la proteïna corresponents

El software exonerate incorpora el programa fastatranslate. Fastatranslate tradueix la seqüència de cDNA extreta a proteïna considerant els 6 marcs de lectura possibles, 3 per a la cadena negativa i 3 per a la cadena positiva.

9. Alineament de les dues proteïnes amb T_Coffee

Això ens ha permès comparar la seqüència obtinguda amb la seqüència de la proteïna original a partir de la qual hem fet la cerca. Per a fer aquest alineament hem utilitzat el programa T-Coffee.

$ t_coffee < fitxerFASTAsequencia1 > < fitxerFASTAsequencia2 >

10. Cerca d'elements SECIS

Per a buscar els elements SECIS hem utilitzat el programa SeciSearch 2.19. Hem introduït la seqüència genòmica corresponent a la regió on es troba la nostra selenoproteïna. Aquesta regió l'hem extret mitjançant les comandes $ fastaindex i $ fastafetch. Amb el programa BLASTot.pl hem automatitzat aquesta cerca de manera que la cerca s'ha realitatzat ràpidament en tots els genomes.


11. Aliniament de les selenoproteïnes trobades

Finalment, hem decidit alinear, mitjançant el programa T-Coffee, les selenoproteïnes de la mateixa família trobades en més d'una espècie. Això ens ha servit per observar si tenien més o menys dominis conservats.

Torna a dalt