1. Cerca d'altres seqüències de la família de selenoproteïnes

Cerca d'altres seqüències de les famílies de selenoprotïenes SelQ i EhSEP2, diferents a les que trobem en els PATH que ens han estat donats, provinents d’altres protists.

torna cap a dalt

2. Cerca de similaritat: BLAST

BLAST és un programa informàtic que s'encarrega de cercar regions de similitud entre seqüències. Compara seqüències nucleotídiques o proteiques (el que anomena "query") amb una base de dades que conté les seqüències amb les quals es vol trobar l'homologia (l'anomena "subject"). A més, calcula la significància estadística de tots els resultats. El programa té cinc aplicacions o "flavours" diferents:

- BLASTp: compara la seqüència d'aminoàcids d'interès amb una seqüència proteica o base de dades.
- BLASTn: compara la seqïència nucleotídica d'interès amb una seqüència proteica o base de dades.
- BLASTx: compara els diferents marcs de lectura de la seqüència nucleotídica d'interès amb una seqüència proteïca o base de dades.
- tBLASTn: compara la seqüència proteica d'interès amb la seqüència nucleotídica o base de dades traduïda en totes les pautes de lectura possibles.
- tBLASTx: compara els sis marcs de lectura de la seqüència nucleotídica d'interès amb els sis marcs traduïts d'una seqüència nucleotídica o de bases de dades. També és útil per trobar la distància entre seqüències de DNA.

Realització del tBLASTn
Per tal de cercar els possibles alineaments entre el nostre genoma i les selenoproteïnes conegudes, vam utilitzar el programa tBLASTn, que ens compara DNA (seqüència nucleotídica) contra proteïnes (seqüència aminoacídica).

Vam haver de canviar les U, corresponents a la selenocisteïnes, per X, ja que el programa no reconeix la U, i dóna errors. Aquest canvi també ens serà útil per a treballar amb els següents programes.

Per poder treballar amb tBLASTn vam escriure les següents comandes a la terminal:

$ export PATH=/cursos/BI/bin/ncbiblast/bin:$PATH
$ cp /cursos/BI/bin/ncbiblast/.ncbirc ~/

Fem servir a continuació, la comanda blastall:

$blastall -p tblastn -i fitxerquery.fa -d nombbddBLAST -o fitxerdesortida

on fitxerquery.fa ha de ser el fitxer que contingui la selenoproteïna, nombbddBLAST ha de ser el nom de la base de dades BLAST en la qual volem fer la cerca, i fitxerdesortida ha de ser el nom d'un fitxer dins el qual volem que BLAST ens emmagatzemi els resultats de la cerca.

Selecció de candidats
Per poder analitzar els resultats, considerem que un bon alineament serà aquell que tingui un E-value menor que 10e-4.

Un cop blastejades les seqüències, el programa BLAST proporciona una llista de possibles candidats (anomenats "hits") per a cada una de les seqüències "query". Aquests candidats són regions del genoma del protista en les qual s'ha trobat certa semblança de seqüències amb la respectiva proteïna "query". Amb l’objectiu de seleccionar quines d'aquestes regions s'estudiaran, es tenen en compte 3 aspectes:

- E-VALUE: significància estadística de l'homologia trobada. Aquest valor és proporcionat pel programa BLAST. En aquest treball tan sols s'analitzen les seqüències que presenten un e-value menor a 1.
- SCORE: puntuació de l'alineament. Com més elevat és, més homologia hi ha entre les seqüències comparades.
- PRESÈNCIA DE SELENOCISTEÏNA O CISTEÏNA: és essencial per saber si estem davant d'una selenoproteïna o d'un homòleg en cisteïna.

Amb l'avaluació d'aquests paràmetres es seleccionen les regions del genoma que són candidates a ser selenoproteïnes o proteïnes homòlogues en cisteïna.

torna cap a dalt

3. Creació d’una base de dades

Hem de fer una base de dades perquè en els genomes que ens han donat en el PATH hi ha més d'un contig.

$ formatdb -i /cursos/BI/genomes/D.melanogaster/golden_path_200404dm2/chromFa/allChr.fa -p F -n dm2.fa

torna cap a dalt

4. Extracció de la regió genòmica que potencialment conté el gen que busquem (fastaindex, fastafetch i fastasubseq)

A partir de les dades de localització cromosòmica obtingudes amb la comanda anterior, i tenint en compte només els hits significatius, extraurem la regió genòmica on l'alineament amb el tBLASTn ens indicava que es trobava la selenoproteïna.

Primer, cal realitzar l´índex del genoma (utilitzarem un exemple amb el protists P.sojae):

$ fastaindex genome.fa genome.index
$ fastaindex /cursos/BI/genomes/protists/2010/P.sojae/genome.fa Psojae2.index

Extraiem la seqüència que conté la regió d´interès a partir de l´índex. També necessitem les coordenades de la seqüència de la selenoproteïna, que obtenim del tBLASTn realitzat anteriorment. A continuació mostrem la comanda utilitzada, on “coordenades a tallar” és l´identificador "gi" que conté la seqüència on s´ha produït l´alineament, i seq.fastafetch.fa és el nom que li donem a l´output.

$ fastafetch /cursos/BI/genomes/protists/2010/P.sojae/genome.fa Psojae2.index "gi|113925193|gb|AAQY01001555.1|" > Psojaefetch2.fa

on nomseq es refereix al nom de la seqüència en la qual estem interessats. A partir d'aquí ja podem extreure la regió genòmica amb fastasubseq com haviem vist abans.

Per a cadascun dels candidats, cal buscar el "contig" en el que es troba a la base de dades del genoma i crear un fitxer fasta individual. El nombre del contig és una dada que s'obté en la taula de resultats del tBLASTn. Mitjançant la comanda fastasubseq del programa exonerate, es pot tallar la seqüència del "contig" per a obtenir la seqüència alineada en el tBLASTn. Com que probablement aquest alineament no ha agafat tota la llargada de la proteïna, cal tallar la seqüència més enllà dels extrems proporcionats pel tBLASTn. La llargada de la seqüència que s'extreu depèn, en cada cas, de la posició relativa de l'alineament en el "contig" i de la pròpia llargada del "contig".

Extraiem la regió d´interès a partir de la seqüència obtinguda en el pas anterior. Inici és on comença la nostra query i llargada, com és de llarga (final - inicial). En aquest pas d´extracció de la regió, per assegurar-nos que no tallem cap exó i que podrem incloure l´element SECIS, agafem 2000 nucleòtids més per davant i 2000 més per darrere, fem els càlculs corresponents i afegim els resultats a la comanda fastasubseq.

Exemple de la comanda utilitzada:

$ export PATH=/cursos/BI/bin/exonerate/i386/bin:$PATH $ fastasubseq /novell/home/PROJECTE_BIOINFO/Psojaefetch2.fa 108917 4131 > Psojaesubseq.fa on contiggenomequery.fa és l'arxiu que conté la seqüència del contig, start és el nombre de la base inicial de la seqüència que es vol extreure, length és la longitud de la seqüència que es vol extreure i genomicquery.fa és l'arxiu on es redirecciona la seqüència obtinguda.

torna cap a dalt

5. Anotació del genoma mitjançant exonerate

Exonerate és un programa informàtic utilitzat per dur a terme comparació nucleotídica entre dues seqüències, mitjançant models d'alineaments i programació dinàmica.

$ exonerate -m p2g --showtargetgff -q SelQcanviU.fa -t Psojaesubseq.fa | egrep -w exon > PsojaeselQ.exonerate.gff
(Canviem U per C perquè funcioni)

torna cap a dalt

6. Anotació del genoma mitjançant Genewise

Comprovarem també amb el genewise:

$ export PATH=/cursos/BI/bin:$PATH $ export WISECONFIGDIR=/cursos/BI/soft/wise-2.2.0/wisecfg $ genewise -pep -pretty -cdna -gff SelQcanviU.fa Psojaesubseq.fa.

torna cap a dalt

7. Anàlisi de les seqüències proteiques predites: T-COFFEE

T-COFFEE (Three-based Consistency Objective Function for alignment Evaluation) és un programa que fa l'alineament múltiple de seqüències utilitzant aproximació progressiva. T-COFFEE ens alinea la proteïna query amb la selenoproteïna predita. Les comandes utilitzades són:

$ fastaseqfromGFF.pl Psojaesubseq.fa PsojaeselQ.exonerate.gff > cDNA.P.sojae.fa
$ fastatranslate -F 1 cDNA.P.sojae.fa > protP.sojae.fa
$ t_coffee SelQ.fa protP.sojae.fa

torna cap a dalt

8. Cerca d'element de SECIS

Quan ja tenim la selenoproteïna hem de confirmar que el codó TGA s'està traduïnt realment com a selenoproteïna i no com un codó d'STOP dins la nostra seqüència. Per esbrinar-ho busquem la presència d'elements SECIS, ja que aquests són els elements responsables d'aquest canvi en la traducció, dins el contig que conté la selenoproteïna utilitzant el programa SECISearch.

En el cas d'obtenir més d'un element SECIS dins del contig a on es troba la nostra seqüència hem de determinar quin és el que correspon a la nostra selenoproteïna o almenys establir quins són els millors candidats. Per fer-ho ens fixem en quina posició es troba, és a dir, mirar quin és el SECIS més proper a la selenoproteïna en sentit “dowstream” (en el cas de que la nostra selenoproteïna sigui “reverse” buscarem el SECIS en sentit “upstream”). Tant si mirem en un sentit com un altre els SECIS que poden codificar per la nostra selenoproteïna es trobaran a una distància màxima d'uns 1000 nucleòtids. Un cop seleccionem aquells possibles candidats per proximitat podem determinar quins són els millors a partir del valor de la seva energia (interesa un valor elevat) i de la seva conformació (que presenti els dos loops i les bases característiques conservades)

torna cap a dalt

Procediment