Materials i Mètodes
1. Obtenció de seqüències query i genomes
L'objectiu d'aquest treball és identificar les selenoproteïnes Sel3, DI1, DI2 i DI3 presents en diferents protists.
Els genomes dels 14 protists han estat facilitats pels professors de l'assignatura de Bioinformàtica, accessibles a través del sistema de fitxers.
Per obtenir les diferents seqüències de les selenoproteïnes hem accedit a diferents bases de dades. Primer, consultem a SelenoDB, una base de dades que recull gens de selenoproteïnes, proteïnes i elements SECIS. Per incrementar el nombre de seqüències query hem realitzat una nova búsqueda a la base de dades de proteïnes del NCBI, on es pot trobar una col·lecció de seqüències de diferents tipus, incloent-hi traduccions de regions codificants anotades en GenBank, RefSeq i TPA.
D'entre tots els organismes de les bases de dades, hem escollit Homo sapiens, Mus musculus, Gallus gallus, Xenopus laevis i Danio rerio com a queries de la família DI, i Plasmodium falciparum per a Sel3.
Per a facilitar l'execució dels programes posteriors hem de substituir les U, corresponents a les slenocisteïnes, presents en les seqüències per X, i emmagatzemar el fitxer en format FASTA.
Tornar a dalt
2. Anàlisi amb BLAST
El BLAST (Basic Local Alignment Search Tool) és una eina que serveix per comparar i alinear seqüències. Dintre d'aquest, trobem diferents tipus de programes, segons si les seqüències a comparar són d'aminoàcids o nucleòtids. En concret, el programa tBLASTn permet comparar una seqüència d'aminoàcids amb els sis possibles marcs de lectura d'una seqüència de nucleòtids. En el nostre cas, comparem les seqüències query corresponents a les selenoproteïnes amb els genomes dels diferents protists. Per utilitzar-lo emprem les següents comandes:
$ export PATH=/cursos/BI/bin/ncbiblast/bin:$PATH
$ cp /cursos/BI/bin/ncbiblast/.ncbirc ~/
$ blastall -p tblastn -i query.fa -d genomaprotist.fa -o blast.query.genomaprotist.fa
$ blastall -p tblastn -i query.fa -d genomaprotist.fa -o blast.query.genomaprotist.fa -m9 -e 0.001
Aquesta comanda s'ha de repetir per a cada query i cada protist. Per a agilitzar el procés l'hem automatitzat mitjançant un programa perl: BLAST.pl
Obtenim un fitxer en format FASTA que contindrà les homologies entre les seqüències. Els hits considerats significatius han de tenir un e-value inferior a 0,001. Hem incorporat uns filtres en la comanda per a facilitar-ne la lectura. Amb -m9 només ens apareix el nom de la regió alineada, el e-value i les posicions inicial (start) i final (end) de cada alineament. Afegint -e 0.001 aconseguim filtrar només aquells alineaments que siguin significatius.
Tornar a dalt
3. Extracció de regions genòmiques
Per veure en quines regions estan organitzats els genomes dels protists utilitzem la comanda:
$ fastaindex genomaprotist.fa genomaprotist.index
Com en el pas anterior, hem automatitzat el procés amb el programa perl INDEX.pl En el fitxer obtingut hi ha un codi d'identificació per a cadascuna de les regions del genoma, anomenades contigs.
El següent pas consisteix en crear un nou arxiu que contingui només el contig on s'havia trobat un hit en el BLAST. Això es duu a terme mitjançant la següent comanda:
$ fastafetch genomaprotist.fa genomaprotist.index 'codicontig' > fetch.genomaprotist.fa
A continuació, extraiem la regió del genoma que correspondria a la selenoproteïna, utilitzant el programa fastasubseq. Per a fer-ho, cal indicar la posició d'inici i la llargada de la regió d'interès, que consultem en l'arxiu obtingut amb el BLAST amb el filtre -m9. Per assegurar-nos que la regió que seleccionem inclou el gen de la possible selenoproteïna ampliem les posicions de start i end en aproximadament 25.000 nucleòtids. La comanda que fem servir és:
$ fastasubseq fetch.genomaprotist.fa start length > subseq.genomaprotist.fa
Tornar a dalt
4. Obtenció de seqüències de cDNA amb Exonerate i Genewise
Un cop obtinguda aquesta seqüència, ens interessa generar un arxiu que contingui només les regions corresponents als exons del gen, ès a dir, el cDNA que codificarà per a la nostra proteïna. Això es pot fer amb dues aproximacions diferents: l'Exonerate i el Genewise. Nosaltres hem utilitzat preferencialment el programa Exonerate i, en els casos en què amb aquest no obteníem resultat, hem optat pel Genewise.
Exonerate:
Genewise:
Per poder utilitzar aquest programa, primer cal entrar aquestes comandes:
$ export PATH=/cursos/BI/bin:$PATH
$ export PATH=/cursos/BI/bin/exonerate/i386/bin:$PATH
Per executar el programa introduïm les comandes següents:
$ exonerate -m p2g --showtargetgff -q query.fa -t subseq.genomaprotist.fa --exhaustive yes | egrep -w exon > exonerate.genomaprotist.gff
$ fastaseqfromGFF.pl subseq.genomaprotist.fa exonerate.genomaprotist.gff > cDNA.genomaprotist.fa
El cDNA obtingut s'ha de traduir a proteïna abans de comparar-lo amb les seqüències query. Això ho fem mitjançant un programa associat a Exonerate anomenat fastatranslate, que executem amb la següent ordre:
$ fastatranslate -F 1 cDNA.genomaprotist.fa > translate.genomaprotist.fa
Escrivim la comanda següent per a poder executar el programa:
$ export WISECONFIGDIR=/cursos/BI/soft/wise-2.2.0/wisecfg
Aquest programa té la particularitat que li hem d'especificar la direccionalitat de l'alineament, és a dir, li hem d'indicar si tenim la cadena en forward o en reverse.
Així, la comanda per a les cadenes forward és:
$ genewise -pep -pretty -cdna -gff query.fa subseq.genomaprotist.fa > genewise.genomaprotist.fa
Mentre que en el cas de les cadenes reverse introduïm:
$ genewise -pep -pretty -cdna -gff -trev query.fa subseq.genomaprotist.fa > genewise.genomaprotist.fa
En aquest cas, no ens cal traduir la seqüència, ja que l'arxiu generat amb Genewise ens mostra tant la nucleotídica com la proteica.
Tornar a dalt
5. Alineament amb T-COFFEE
El T-COFFEE és un programa que ens permet fer alineaments múltiples. Aliniem la seqüència obtinguda en el pas anterior amb totes les queries de les diferents espècies. Per poder fer això últim, ajuntem les queries d'una mateixa proteïna en un sol document en format FASTA.
Abans de realitzar-ho, però, cal substituir els " * " que hi pugui haver a la seqüència obtinguda, que indiquen la presència d'una selecisteïna o un codó stop, per una X.
La comanda per executar el programa és la següent:
$ t_coffee documentqueries.fa translate.genomaprotist.fa > tcoffee.genomaprotist.fa
Tornar a dalt
6. Cerca d'elements SECIS
Els elements SECIS (Selenocysteine Insertion Sequence) són seqüències de RNA amb una estructura tridimensional en forma de stem-loop, però que no corresponen a una seqüència nucelotídica definda. Se situen a la regió upstream 3' del gen, i la seva funció és reclutar i permetre el funcionament de la maquinària necessària per la síntesi de selenoproteïnes. És a dir, en trobar-se un codó UGA, l'element SECIS permetrà incorporar una selenocisteïna (U) a la proteïna que s'està sintetitzant en comptes de considerar-lo com un codó stop.
La búsqueda d'aquests elements la realitzem mitjançant el software SECISearch disponible on-line.
Tornar a dalt
7. Cerca de maquinària
Per últim, realitzem una cerca de la maquinària necessària per la síntesi de les selenoproteïnes: sps2, sbp2, pstk, secp3, SecS, eEFsec i tRNAsec. Aquesta cerca la fem en tots els protists, ja que tot i que no haguem identificat les selenoproteïnes que buscàvem, podria ser que n'hi hagués d'altres i, en aquest cas, tindrien la maquinària igualment.
Els passos a seguir són els mateixos que en la cerca dels homòlegs de les selenoproteïnes: BLAST, fastaindex, fastafetch, fastasubseq, exonerate/genewise i T-COFFEE.