Materials i mètodes

L’objectiu del nostre treball és comprovar si en els genomes dels protists a estudiar s’hi troben homòlegs de les següents selenoproteïnes: SelL, Sel15 i Fep15. Per tal de fer-ho utilitzem seqüències aminoacídiques d’aquestes selenoproteïnes a les que anomenem queries i les comparem amb els genomes dels protists.

Per assolir aquest objectiu hem seguit una sèrie de passos i utilitzat una sèrie de programes que explicarem a continuació:

1. Obtenció dels genomes dels protists

Els professors de l'assignatura de bioinformàtica ens van facilitar el genoma de tots els protists que s'estudien (A. Laibachii, A. Rara, C. Fasciculata, D. Discoideum soca AX4, D. Fasciculatum, F. Cylindrus, G. Niphandrodes, I. Multifilis soca G5, L. Donovani, L. Tarentolae, P. Capsici, P. Polycephalum, S. Arctica, T. Congolense.)

Torna a dalt

2. Obtenció de les queries

Vam trobar les seqüències de les queries en dues bases de dades:SelenoDB i NCBI. Algunes queries (de la selL i de la Fep15) ens les van proporcionar els professors. També vam utilitzar algunes queries de treballs d'anys anteriors.

El criteri inicial per triar les queries va ser que fossin selenoproteïnes d'organismes propers filogenèticament als protists estudiats. A la pràctica hem utilitzat les queries de les que hem pogut disposar, per exemple, en el cas de la Fep15, només vam poder agafar queries de peixos, ja que només ha estat descrita en aquests organismes.

Torna a dalt

3. BLAST

El BLAST, acrònim de Basic Local Alignment Search Tool, és un programa informàtic que busca regions de semblança entre diferents seqüències. Consisteix en comparar una seqüència que s'anomena query amb una base de dades per tal de trobar homòlegs dins d’aquesta última. Per fer-ho, utilitza algoritmes heurístics, fet que el fa un programa molt ràpid però no garanteix el resultat òptim. A més de donar els alineaments de les seqüències, també calcula la significança estadística dels resultats, donant l'E-value de cada alineament. Aquest valor indica el nombre d'alineaments amb aquell score, o millor, que es pot trobar en aquella base de dades. Per això quant més petit és aquest valor més significatiu és l’alineament resultant.

Existeixen diferents tipus de BLAST segons la naturalesa de la query i de la base de dades (si són seqüències de nucleòtids o seqüències d'aminoàcids). En el nostre treball, utilitzem tBLASTn, que compara una query d'aminoàcids contra una base de dades de nucleòtids. tBLASTn tradueix les seqüències de nucleòtids de la base de dades a aminoàcids en els 6 marcs de lectura possibles. Després compara les seqüències obtingudes amb la query i, per últim, treu els hits rellevants.

En el nostre cas les queries són seqüències proteiques de les corresponents selenoproteïnes i les bases de dades els diferents genomes dels protists.

Per poder usar el programa, s'ha d'extreure el software necessari, posant les següents comandes al terminal:

    $ export PATH=/cursos/BI/bin/ncbiblast/bin:$PATH
    $ cp /cursos/BI/bin/ncbiblast/.ncbirc ~/

Per executar el tBLASTn, la comanda que s'ha d'escriure al terminal és la següent:

    $ blastall -p tblastn -i query.fa -d genoma.fa -o proteinavsgenoma.tblastn

-p indica el tipus de blast.
-i indica la ubicació de la query.
-d indica la ubicació de la base de dades, en aquest cas el genoma.
-o indica la ubicació i el nom del fitxer on s'emmagatzemarà el resultat del blast.

Ara bé, nosaltres hem utilitzat una opció del BLAST, en la que afegim l'argument -F F. Per defecte, el BLAST substitueix per X les regions de baixa complexitat de les seqüències, ja que poden donar falsos positius. Aquest argument permet tenir en compte aquestes regions de baixa complexitat. En el nostre cas, com que els hits no són molt bons (tenen E-values bastant alts), hem decidit utilitzar aquesta opció.

    $ blastall -p tblastn -i query.fa -d genoma.fa -o proteinavsgenoma.tblastn -F F

A més d'executar el programa BLAST amb la comanda anterior, l'hem executat també afegint l'argument -m9. D'aquesta manera, s'obtenen els resultats del BLAST resumits.

    $ blastall -p tblastn -i query.fa -d genoma.fa -o proteinavsgenoma.tblastn -m9 -F F

Torna a dalt

4. Selecció dels hits

Un cop hem realitzat el tBLASTn hem de seleccionar els hits més significatius. El criteri utilitzat ha sigut desestimar els hits que tinguin un E-value major a 10-4.

Torna a dalt


5. Extracció de la regió renòmica dels hits seleccionats.

Un cop hem seleccionat els hits a partir dels resultats del tBLASTn hem d'extreure les regions genòmiques que potencialment contenen els gens que estem estudiant.

Per fer-ho treballarem amb un software anomenat exonerate, i per tant, abans d'utilitzar aquests programes és necessari introduir al shell les següents comandes:

    $ export PATH=/cursos/BI/bin/exonerate/i386/bin:$PATH
    $ export PATH=/cursos/BI/bin:$PATH

Per tal d'extreure les regions genòmiques dels hits a estudiar el primer que s'ha de fer és indexar els genomes, és a dir, enumerar i ordenar els diferents genomes per tal de poder executar el programa següent. En el nostre cas la comanda utilitzada és:

    $ fastaindex /cursos/BI/ genomes/protists/any/nom_del_protista/genome.fa nom_del_protista.index

On primer posem la ubicació del genoma del protista i després el fitxer de sortida.

El segon pas consisteix en extreure la regió a partir de la seqüència. I la comanda és:

    $ fastafetch /cursos/BI/ genomes/protists/any/nom_del_protista/genome.fa nom_del_protista.index identificador > identificador.fa

On primer posem la ubicació del genoma del protist, després posem la ubicació del fitxer de sortida del fastaindex (ubicació del genoma indexat); i per últim, posem l'identificador del contig que volem extreure (identificador). Redireccionem el fitxer de sortida al fitxer identificador.fa

Finalment, a partir de la comanda fastasubseq ja podem extreure la regió genòmica d'interès. Aquesta comanda requereix la posició de start que fa referència a la posició d'inici en la seqüència a extreure i lenght que fa referència al número de nucleòtids que volem extreure a partir posició start. En el nostre cas, vam utilitzar una llargada de 30.000 nucleòtids.

La comanda que es posa al shell per tal d’executar el fastasubseq és la següent:

    $ fastasubseq/cursos/BI/genomes/protists/any/nom_del_protista/genome.fa start lenght > genomic.fa

On primer posem la ubicació del genoma del protist que volem estudiar, després posem quin és el nucleòtid d'inici (start), després posem la llargada de la seqüència que volem agafar (lenght) i per últim, el fitxer de sortida (genomic.fa).

Torna a dalt


6. Exonerate

Un cop hem obtingut la regió genòmica a partir dels programes que s'han realitzat anteriorment, executarem el programa d'exonerate. Aquest consisteix en obtenir un alineament més acurat i predir l'estructura exònica de la seqüència problema i per tant, obtenir una informació més detallada del gen.

La comanda utilitzada per executar l’exonerate és la següent:

    $ exonerate -m p2g --showtargetgff -q query.fa -t genomic.fa > sortida.gff

–m indica el tipus d’alinealment (p2g indica proteïna contra genoma).
-showtargetgff indica que el resultat l’ensenyi en format gff.
-q indica la ubicació de la query.
-t indica la regió del genoma amb el gen d’interès (el resultat del fastasubseq).
sortida.gff indica la ubicació del fitxer de sortida.

Un cop tenim el resultat de l’exonerate, volem predir la seqüència de la proteïna a partir d’aquest. És per això, que volem obtenir el cDNA. Per fer-ho, utilitzem el programa fastaseqfromGFF.pl.,que construeix una seqüència de nucleòtids a partir d’un fitxer en format GFF. Primer, però, hem de seleccionar només la part de la seqüència que són els exons. Per dur-ho a terme, introduïm la següent ordre al terminal:

    $ egrep -w exon sortida.gff > cDNA.gff

On egrep –w selecciona les files del fitxer sortida.gff, que continguin la paraula exon. Per tant, en el fitxer cDNA.gff, només hi haurà les seqüències dels exons.

Un cop tenim els exons seleccionats podem executar el fastaseqfromGFF.pl. La comanda que s’utilitza és la següent:

    $ fastaseqfromGFF.pl genomic.fa cDNA.gff > cDNA.fa

genomic.fa conté la regió extreta anteriorment (resultat fastasubseq).
cDNA.gff conté la seqüència dels exons en format gff.
cDNA.fa és el fitxer de sortida que conté la seqüència del cDNA en format fasta.

Finalment, per tal de traduir la seqüència de DNA a proteïna en totes les pautes de lectura possibles i per tant, obtenir la seqüència proteica utilitzarem el fastatranslate. La comanda de la qual és:

    $ fastatranslate cDNA.fa > aa_del_gen_6pautes.fa

cDNA.fa indica la ubicació de la seqüència del cDNA de la proteïna predita (resultat del fastaseqfromGFF.pl).
aa_del_gen_6pautes.fa conté 6 seqüències d'aminoàcids que corresponen a les 6 possibles proteïnes que prediem.

A més, per tal de trobar la proteïna que s'obté de la pauta de lectura forward 1 (normalment és la pauta utilitzada), introduïm la comanda següent:

    $ fastatranslate cDNA.fa -F 1 > aa_del_gen_1pauta.fa

on l'argument -F1 agafa la primera pauta de lectura, en direcció forward.

Tot i així, sempre comprovem que aquesta sigui la pauta real.

Torna a dalt


7. Genewise

És un programa molt similar a l'exonerate que té la mateixa finalitat però només compara una seqüència en cada comanda. Nosaltres utilitzem el Genewise per tal de contrastar la informació obtinguda amb l’exonerate. Per cada hit significatiu resultant del BLAST fem tant l’exonerate com el genewise, i comparem els resultats.

Abans de poder executar-lo s’han d’escriure les següents comandes al terminal:

    $ export PATH=/cursos/BI/bin:$PATH

    $ export WISECONFIGDIR=/cursos/BI/soft/wise-2.2.0/wisecfg

La comanda d'aquest programa és la següent:

    $ genewise -pep -both query.fa genomic.fa > genewise.fa

-pep indica que volem obtenir el pèptid predit en format fasta.
-both indica que volem obtenir les cadenes forward i reverse.
query.fa indica la ubicació de la query.
genomic.fa indica la ubicació del resultat del fastasubseq.
genewise.fa és el fitxer de sortida.

D'aquesta manera obtenim el pèptid predit; però no obtenim els alineaments detallats. Per tant, pels hits rellevants hem executat la següent comanda per tal d'obtenir més informació:

    $ genewise -pretty -both query.fa genomic.fa> genewisecomplet.fa

-pretty indica que es vol obtenir els alineaments detallats.

Torna a dalt


8. T-Coffee

Utilitzem el programa T_Coffee per alinear la nostra seqüència amb la seqüència de la proteïna predita amb els passos anteriors. Per tal d'executar-lo hem utilitzat la següent comanda:

    $ t_coffee proteïna.fa query.fa > t_coffee.fa

proteïna.fa indica la proteïna predita, que pot ser, la predita amb exonerate (aa_del_gen_1pauta.fa) o la predita amb genewise (genwise.fa).
query.fa és la query utilitzada.
t_coffee.fa és el fitxer de sortida.

Torna a dalt


9. Recerca de similitud en una base de dades no redundant

Un cop hem obtingut la proteïna predita, comparem aquesta proteïna amb una base de dades no redundant (concretament, el NCBI), mitjançant un pBLAST. D'aquesta manera, veiem amb quin tipus de proteïnes s'alinea, extreient informació complementària que ens facilita fer l'anàlisi.

Torna a dalt


10. Elements SECIS

Per tal de finalitzar l'anàlisi podem buscar els elements SECIS que són necessaris per a la síntesi de les selenoproteïnes. La recerca d'aquests elements ens permet confirmar que el codó UGA correspon a una selenocisteïna i no a una senyal de finalització. Per tal de realitzar aquest anàlisi, hem introduit la subseqüència d'interès (resultat de fastasubseq) en un programa online anomenat SECISsearch. Aquesta web ens proporciona els SECIS i la imatge d'aquests.

Hem tingut en compte aquells elements SECIS que es trobaven a la mateixa cadena que el gen de la selenoproteïna i a una distància inferior a 4000 nucleòtids.

Torna a dalt


11. Cerca de la maquinària de transcripció de les selenoproteïnes

Per acabar de corroborar la presència de selenoproteïnes en els diferents organismes hem observat si contenien els gens que codifiquen per les proteïnes de la maquinària de la síntesi de selenoproteïnes.

Hem utilitzat els mateixos programes; utilitzant com a query, la seqüència aminoacídica de les proteïnes de la maquinària; i els genomes dels protists com a base de dades.

Torna a dalt


12. Automatització

Per tal de realitzar tots els procediments explicats prèviament i degut al gran nombre de fitxers a manipular hem trobat convenient automatitzar tot el procés amb transcripts del shell d'UNIX. Hem creat dos programes en llenguatge bash per dur a terme totes les operacions.

El primer realitza tblastn amb les corresponents querys i el segon identifica els hits significatius obtinguts amb l'anterior programa, realitza les comandes de fastafetch, fastasubseq, exonerate, obtenció del cDNA, traducció, T_coffee de la proteïna resultant de l'exonerate, genewise i T_coffee del resultat del genewise.Aquest segon programa necessita un petit programa fet en llenguatge perl que cridem des de dins del gros.

A part hem creat un programa que executa la comanda del fastaindex per tal d'obtenir tots els genomes indexats necessaris per poder fer el fastafetch i l'exonerate.

Automatització del tblastn (script).

Aquest programa executa, per cada genoma indicat i per cada query que troba dins la carpeta anomenada querys, les ordres tblastn detallat i resumit (amb l'opció -m 9) i col·loca els arxius resultants en carpetes odrenades dins la carpeta indicada.

Automatització del fastaindex (script)

Automatització de la resta de comandes (script)

Aquest programa analitza els arxius resultants del tblastn i identifica els hits rellevants. Si troba hits rellevants executa les comandes de fastafetch, fastasubseq i exonerate per cada un d'ells. En cas de que l'exonerate hagi trobat exons realitza les comandes d'obtenció del cDNA, de traducció (fastatranslate) i el corresponent T_coffee. A part per cada hit rellevant trobat en els resultats del tblastn realitza el genewise, i el T_coffee corresponent.

Els documents resultants els col·loca en carpetes ordenades.

Utilitzem un programa en llenguatge perl (script) per tal d'escollir a partir del resultat del genewise quina de les dos proteïnes predites és més llarga si la forward o la reverse.

Torna a dalt