Selenoproteïnes en protistes

1. Cerca de queries

Primerament hem buscat les queries de les tres famílies de selenoproteïnes. Les queries de SelK i Sps les vam trobar a la base de dades SelenoDB, mentre que en el cas de la família Sel1, la query ha estat facilitada pels professors de l’assignatura de Bioinformàtica. A més, per SelK també hem utilitzat una query d’un protista que va ser identificada el curs anterior.[10]

Les queries que hem utilitzat per a les tres famílies de selenoproteïnes són:

Sel1	Sps1	Sps2	SelK
P. falciparum	A. gambiae D. melanogaster H.sapiens	A. gambiae D. melanogaster H.sapiens	T. cruzi A. gambiae D. melanogaster M. musculus H.sapiens

El principal criteri que hem seguit per escollir aquestes queries és la proximitat filogenètica, ja que hem considerat que ens podrien aportar més informació aquelles espècies que són properes als protistes. No obstant, hem incorporat en tots els casos les queries d'H. Sapiens perquè considerem que són les queries més estudiades. A més a més, en alguns casos s’han afegit queries d’altres mamífers perquè a l'hora de fer la cerca ens hem basat en la idea que com major nombre de queries analitzéssim, més seguretat podríem tenir en els resultats obtinguts més endavant.

Totes les queries seleccionades tenen una selenocisteïna, excepte en el cas de la subfamília Sps1 que no conté cap selenocisteïna ni homòleg en cisteïna. Tot i així, hem seguit endavant amb aquesta subfamília per tal de detectar regions d’alta homologia en els nostres genomes.

Torna a dalt

2. Cerca dels genomes dels protistes

Els protistes utilitzats en el curs 2011 són:

Ascogregarina taiwanensis
Blastocystis hominis
Capsaspora owczarzaki
Cryptosporidium muris
Cryptosporidium parvum
Cyanidioschyzon merolae
Ectocarpus siliculosus
Hyaloperonospora arabidopsidis
Naegleria gruberi
Phaeodactylum tricornutum
Polysphondylium pallidum
Pythium ultimum
Saprolegnia parasitica
Thecamonas trahens

Els genomes dels protistes van ser facilitats pels professors de l’assignatura de Bioinformàtica distribuïts en diferents carpetes en el directori: /cursos/BI/genomes/protists/genomes_list_and_info.tab. En aquest projecte s’analitzaran els genomes que han estat anotats l’any 2011.

Torna a dalt

3. Recerca de similaritat: BLAST

El BLAST (Basic Local Alignment Search Tool) és una eina informàtica que ens permet realitzar alineaments locals. Existeixen diferents tipus de BLAST que utilitzarem en funció de quina sigui la nostra query, la nostra base de dades i el que volem obtenir. En aquest cas, per tal de trobar els alineaments locals entre la seqüència aminoacídica de la query i la seqüència de nucleòtids dels genomes dels protistes utilitzem la modalitat tBLASTn. Aquest tipus de BLAST realitza una comparació entre la query proteica (seqüència d’aminoàcids) contra una base de dades de DNA (genoma dels protistes) traduïda a aminoàcids.

Per poder utilitzar el BLAST cal fer les següents exportacions al terminal:
$ export PATH=$PATH:/disc8/bin/ncbiblast/bin
$ cp /disc8/bin/ncbiblast/.ncbirc ~/

A continuació és necessari formatejar els arxius dels genomes amb una eina informàtica anomenada formatdb. Aquesta eina és necessària per tal que puguem utilitzar els arxius de text en format FASTA, com són els genomes dels protistes, com a base de dades del BLAST. Si no apliquem la comanda formatdb, els arxius de text amb seqüències en format FASTA no poden ser utilitzades directament com a base de dades del BLAST.
L’eina formatdb genera tres arxius imprescindibles pel programa BLAST. L’execució d’aquesta eina es realitza amb la següent comanda:
$ formatdb -i /cursos/BI/genomes/protists/any/nom_protista/genome.fa -p F -n genoma_protista.fa
on -i indica el directori que s’ha de seguir per arribar al genoma del protista, -p F informa que la base de dades no és un arxiu de proteïna i -n ens permet donar nom a l’arxiu que s’utilitzarà com a base de dades.

A continuació es pot executar el BLAST amb la següent comanda:
$ blastall -p tblastn -i query.fa -d genoma_protista.fa -o tblastn_queryVSgenoma.fa
on l’argument -p indica el tipus de BLAST que s’utilitza (en el nostre cas sempre serà tBLASTn), -i indica l’arxiu FASTA que s’utilitza com a query, -d indica l’arxiu que s’utilitza com a base de dades (és un arxiu que s’obté de l’eina formatdb) i -o especifica el directori i el nom de l’arxiu de sortida.

Utilitzant aquesta comanda s’obtenen els tBLAST complets on hi ha informació detallada de tots els alineaments possibles entre una query i una base de dades determinada.

A aquesta comanda del BLAST podem afegir al final el paràmetre -m 9 per tal que els resultats ens apareguin en un format que faciliti la seva interpretació. Amb la incorporació d’aquest paràmetre, els resultats del BLAST apareixen en una taula que conté totes les característiques de cada un dels hits que s’obtenen per a un alineament d’una query amb un genoma, com són les posicions d’inici i final de la query, les posicions d’inici i final del genoma, l'E-value, entre altres. Així, la comanda que s’utilitza és:
$ blastall -p tblastn -i query.fa -d genoma_protista.fa -o tblastn_queryVSgenoma.fa -m 9

Aquest seria el procediment que s’hauria de seguir manualment per alinear una query amb un genoma i a continuació repetir-ho per a un altre genoma amb la mateixa query. Quan s’hagués fet per tots els genomes, s’hauria d’utilitzar una altra query i començar pel primer genoma i així successivament.

Per tal de fer el procés del BLAST més eficient i optimitzar la obtenció de resultats es pot automatitzar aquest procediment. Per realitzar el BLAST de manera automàtica per a totes les queries i tots els genomes s’ha elaborat el programa BLASTcomplet en bash. A continuació es torna a executar el programa BLAST_m9 per obtenir els resultats del tBLASTn en format taula per tal de facilitar la interpretació dels resultats. Considerem important realitzar el BLAST sense -m 9 per poder visualitzar els alineaments i el tBLASTn amb -m 9 per poder analitzar amb rapidesa els resultats.

Com es pot observar, mitjançant aquest programa podem utilitzar una query per a tots els genomes i quan s’arribi a l’últim es canviarà de query i tornarà a començar. El programa està elaborat de manera que es crearà una carpeta per cada genoma on s’incorporaran els resultats del BLAST. Les carpetes no estan classificades segons les queries perquè no ho vam necessitar per a organitzar bé els resultats, però es podria haver incorporat fàcilment en el programa en aquells casos on es volgués una classificació per genomes i per queries.

Torna a dalt

4. Anàlisi dels resultats del BLAST

Cada un dels alineaments obtinguts en els resultats del BLAST és un hit. Un hit és una regió del genoma que s’alinea amb alguna regió de la seqüència de la selenoproteïna i que, per tant, pot ser la seqüència homòloga a alguna regió de la seqüència de la query que s’ha utilitzat.

En aquest moment s’ha de decidir quin són els hits més significatius. Els criteris que utilitzem per aquests hits són dos principalment:

E-value: indica la probabilitat de trobar un hit concret per atzar en una base de dades d’una determinada mida, és a dir, ens indica si un alineament és estadísticament significatiu. Prenem com a bons valors de E-value aquells que són inferiors a 0.0001.
Presència de selenocisteïna en l’alineament: la regió de la query que s’alinea amb el genoma ha de contenir l’aminoàcid selenocisteïna (U) per tal de poder seguir la resta de procés amb aquest hit i així determinar si la selenoproteïna es troba en el genoma del protista.

Com ja s’ha comentat, a la subfamília Sps1 no hi ha l’aminoàcid selenocisteïna i per tant no s’ha utilitzat aquest segon criteri.

Tenint en compte aquests criteris s’ha implementat en el programa en bash blast_m9 dos programes en PERL que ens permet automatitzar l’anàlisi de les queries: posicio.pl i filtre_u.pl. El primer programa emmagatzema en un arxiu anomenat posicio.txt, la posició de la U en la query. A continuació, el programa filtre_U.pl analitza si la posició que es troba emmagatzemada a l’arxiu posicio.txt es troba entre la posició d’inici i final de la query, de manera que la U es trobi dins de l’alineament d’aquell hit.

Per altra banda, aquest programa també realitza un filtre de l'E-value. Es va comprovar que els hits significatius (E-value menor a 0.0001) estan representats amb l’expressió e-. Aquesta representació també es troba en alguns hits que no considerem significatius (e.g. e-2), però aquests falsos positius seran detectats al llarg dels següents passos. Per això, establim que un E-value és significatiu quan es representa amb l’expressió e-. En aquests casos, el programa es quedarà amb aquests hits; mentre que si l’E-value no conté l’expressió e- no es consideren valors significatius i es descarten aquests hits.

L’input d’aquest programa són tots els arxius obtinguts del tBLASTn amb la comanda -m 9. L’output són dos arxius:

Resultat.txt: conté els hits després de ser sotmesos al criteri de l’E-value, de manera que en aquest document només observarem els hits que tenen un E-value significatiu. D’aquesta manera s’han descartat molts hits que no eren bons.
Resultats_query.txt: conté els hits després de ser sotmesos al filtre de la U, de manera que només obtenim els hits que la selenocisteïna de la query es troba entre la posició d’inici i final de la query en l’alineament.

En el cas de Sps1, que no té selenocisteïna, només podem observar l’arxiu resultats.txt.

Una vegada obtinguts aquests fitxers hem realitzat un anàlisi manual dels resultats obtinguts per comprovar que aquests filtres no siguin massa estrictes i ens limitin l'obtenció de hits. Això no és així i considerem que l'automatització d’aquest procés és correcta. Per tant, seguim la resta de passos amb els hits obtinguts d’aquests programes.

Torna a dalt

5. Extracció de la regió genòmica

En els següents passos seguim treballant amb els hits que han superat els dos filtres realitzats en el pas anterior (excepte amb la subfamília Sps1 que només es pot realitzar el primer filtre). Cada un d’aquests hits es guarden en arxius diferents sota el nom hit_query_genoma. En el cas d’alineaments d’una query amb un genoma que donen més d’un hit, cal analitzar aquests hits. Si aquests hits comparteixen l’identificador, és a dir, es troben a la mateixa regió del genoma, es guarden en un mateix fitxer. En canvi, si cada un dels hits d’un mateix alineament té un identificador diferent, significa que aquests alineaments es troben en regions diferents del genoma del protista i són guardats per separat.

A continuació, s’ha d’extreure una regió del genoma del protista que conté potencialment el gen que estem buscant. Per això cal aplicar les aplicacions fastafetch i fastasubseq.
Fastafetch és una aplicació que ens permet trobar en quina regió del genoma del protista es troba un hit determinat. Per tal de portar a terme aquesta aplicació cal tenir les regions genòmiques indexades amb un identificador. Aquest índex de cada genoma ha estat facilitat pels professors de l’assignatura en el directori. /cursos/BI/ genomes/protists/any/genoma_protista.index

Per trobar la regió del genoma es necessita l’identificador del hit. La comanda necessària al terminal per executar l’aplicació fastafetch és:
$ fastafetch /cursos/BI/ genomes/protists/any/nom_protista/genome.fa genoma_protista.index 'identificador del contig' > fastafetchqueryVSprotista.fa

Posteriorment es delimita més exactament la zona on es troba la regió d’interès per tal d’obtenir una regió més curta que s’aproximi al resultat final i que ens faciliti la manipulació de la informació (és més fàcil treballar la regió concreta que no amb tot el genoma). Això s’aconsegueix amb l’aplicació fastasubseq.
Aquesta aplicació necessita una posició d’inici i una longitud per tal d’acotar la regió del genoma a aquestes dades.
La posició d’inici depèn de si el sentit és forward o reverse. Per tant, sempre s’agafarà com a inici la posició més petita entre inici i final.

Per no cometre cap error, no perdre informació i garantir que s’inclouen els extrems 3’ i 5’ s’agafa com a inici unes certes posicions upstream de la posició més petita obtinguda amb el tBLASTn i com a final, uns nucleòtids downstream a la posició més gran obtinguda. La longitud de la regió genòmica serà aproximadament de 30000 nucleòtids perquè es considera una mida suficient per englobar tots els elements i no perdre informació.

S’ha decidit per consens que la posició inicial serà 20000 nucleòtids upstream a la posició inicial (més petita) del genoma donada pel BLAST i la posició final serà 10000 nucleòtids downstream a la posició final (més gran) del genoma donada pel BLAST. Per exemple, si en l’alineament de la query amb el genoma obtenim com a posició inicial del genoma 63521 i com a posició final 78052, les posicions inicial i final que utilitzarem per delimitar la regió on es pot trobar el gen seran 43521 i 88052, respectivament.

L’aplicació fatsasubseq s’executa amb la següent ordre al terminal:
$ fastasubseq fastafetchqueryVSprotista.fa inici longitud > fastasubseqqueryVSprotista.fa

Aquest procés d’extracció de la regió genòmica també ha estat automatitzat amb un programa en bash, fastafech i fastasubseq. Aquest programa realitza el fastafetch i ens proporciona un arxiu amb els resultats d’un hit i després fa el fastasubseq amb els arxius obtinguts a partir del fastafetch.

L’input d’aquest programa són els hits guardats anteriorment, tal i com s’ha explicat a l'inici d'aquest apartat. En el cas de hits que comparteixen un identificador, que com s’ha dit estan guardats en un mateix arxiu, s’analitzen les posicions d’inici i final de cada un dels hits, per tal d’utilitzar la més petita de tots els hits com a posició inicial i la més gran de tots els hits com a posició final. Això s’ha automatitzat amb dos programes en PERL petit.pl i gran.pl que s’implementen al programa fastafetch. Primerament, el programa fastafetch determina si els hits obtinguts són reverse o forward comparant si les posicions d’inici són més petites que les de final (forward) o al contrari (reverse).
En el cas d’un hit, el programa en bash juntament amb el programa petit.pl determinen quina és la posició més petita i li resta 20000 nucleòtids per obtenir la posició inicial i el programa en bash juntament amb el programa gran.pl determinen quina és la posició més gran i li sumen 10000 nucleòtids per obtenir la posició final.
En el cas de més d’un hit en un arxiu, es compara quin hit té el valor més petit per la posició d’inici i es resten 20000 nucleòtids a aquesta posició; a continuació, es compara quin hit té el valor més gran a la posició final i es sumen 10000 nucleòtids a aquesta posició. D’aqueta manera, la longitud total és 30000 més la longitud entre la posició inicial i final original.

Torna a dalt

6. Predicció de gens: Exonerate

El programa Exonerate proporciona un alineament més precís que BLAST perquè utilitza la regió genòmica obtinguda mitjançant l’aplicació fastafetch i fastasubseq i l’alinea amb la query. Aquest programa realitza una predicció del nombre d’exons de la proteïna potencial.
Aquest programa no reconeix el símbol U de les selenocisteïnes, de manera que s’ha de subtituir la U de les queries per una X. A continuació es pot executar aquest programa al terminal mitjançant les següents comandes:
export PATH=/cursos/BI/bin/exonerate/i386/bin:$PATH
$ exonerate -m p2g --showtargetgff -q query.fa -t fastasubseqqueryVSprotista.fa > alineamentqueryVSprotista.fa

A continuació, s’ha d’extreure una regió del genoma del protista que conté potencialment el gen que estem buscant. Per això cal aplicar les aplicacions fastafetch i fastasubseq.
Fastafetch és una aplicació que ens permet trobar en quina regió del genoma del protista es troba un hit determinat. Per tal de portar a terme aquesta aplicació cal tenir les regions genòmiques indexades amb un identificador. Aquest índex de cada genoma ha estat facilitat pels professors de l’assignatura en el directori:
/cursos/BI/ genomes/protists/any/genoma_protista.index

L’arxiu que s’obté després de realitzar aquesta comanda conté l’alineament de la regió genòmica amb la query i una taula amb la composició d’aquesta regió genòmica (exons, introns, etc). En el nostre cas només ens interessen els exons, de manera que executem la següent comanda per tal d’obtenir un arxiu que només mostri els exons:
$ exonerate -m p2g --showtargetgff -q query.fa -t fastasubseqqueryVSprotista.fa | egrep -w exon > alineamentqueryVSprotista.exonerate.gff

Per últim cal obtenir el cDNA de l’alineament del hit amb la query. Per això s’ha d’executar el programa fastaseqfromGFF:
$ fastaseqfromGFF.pl fastasubseqqueryVSprotista.fa alineamentqueryVSprotista.exonerate.gff > cDNAprotista.fa

Com a resultat obtenim un arxiu FASTA que conté cDNA del genoma del protista que s’alinea amb la query.

A continuació es pot obtenir la proteïna que s’obté a partir de la traducció d’aquest cDNA mitjançant el programa fastatranslate que incorpora el software Exonerate. El programa fastatranslate serveix per traduir una seqüència de DNA a proteïna en totes les pautes de lectura possibles. La comanda que s’ha d’introduir al terminal és:
$ fastatranslate cDNAprotista.fa > transcritprotista.fa

Amb aquesta comanda obtenim un arxiu que conté sis transcrits (tres per la pauta de lectura forward i tres més per reverse).

S’ha automatitzat el programa Exonerate i fastatranslate amb el programa exonerate en bash. Aquest programa porta implantat un programa en PERL anomenat canvi_U.pl que substitueix les U de la query per X abans d’executar la comanda Exonerate. A continuació s’apliquen les tres comandes comentades anteriorment per tal d’executar Exonerate per les diferents regions genòmiques obtingudes mitjançant fastasubseq. A continuació s’aplica la comanda que executa el programa fastatranslate, de manera que s’obté una carpeta que conté un arxiu per cada hit amb els sis transcrits possibles en cada cas.

A continuació cal escollir quin dels sis transcrits és la proteïna que presenta més homologia amb la selenoproteïna, és a dir, la proteïna que estem intentant identificar des de la realització del tBLASTn. El criteri que hem seguit per escollir aquest transcrit es basa en observar quina és la seqüència d’aminoàcids del hit que s’alinea amb la query en el fitxer obtingut de l’Exonerate. A partir d’aquest alineament podem saber quin dels sis transcrits és el que s’alinea amb la nostra query. Aquest transcrit és la proteïna que estem buscant durant tot aquest procés i l’emmagatzemem en un nou arxiu.

Torna a dalt

7. Predicció de gens: Genewise

El programa Genewise té la mateixa finalitat que el programa Exonerate. Per defecte ens quedarem amb els resultats obtinguts per Exonerate, però aquells resultats que no siguin bons o sempre que es vulgui complementar informació, utilitzarem els resultats obtinguts amb Genewise.

El programa Genewise permet obtenir la seqüència aminoacídica de la proteïna predita, el cDNa, el nombre d’exons i l’alineament entre la proteïna predita del protista i la query en la regió genòmica delimitada.

Una diferència molt important amb Exonerate és que Genewise és sensible a la direccionalitat de l’alineament, de manera que s’ha d’aplicar el programa tenint en compte si tenim reverse strand o forward strand:
$ export PATH=/disc8/bin:$PATH
$ export WISECONFIGDIR=/disc8/soft/wise-2.2.0/wisecfg

Forward:
$ genewise -pep -pretty -cdna -gff query.fa fastasubseqqueryVSprotista.fa > genewisequeryVSprotista.fa

Reverse:
$ genewise -pep -pretty -cdna -gff -trev query.fa fastasubseqqueryVSprotista.fa > genewisequeryVSprotistarev.fa

A partir del programa Genewise obtenim la proteïna predita pel protista que s’alinea amb la query.

S’ha automatitzat el programa Genewise amb el programa en bash fwgenewise i rvgenewise. Aquest programa permet obtenir els alineaments amb forward strand i reverse strand, respectivament. A continuació s’ha d’escollir per cada hit quina de les orientacions li correspon i emmagatzemar la proteïna obtinguda amb Genewise en un nou arxiu.

Torna a dalt

8. T_coffee

T_coffee és un programa que realitza l’alineament global de la proteïna resultant amb la seqüència de la query original.

Hem obtingut dues proteïnes, una mitjançant el programa Exonerate i una altra mitjançant el programa Genewise. En la majoria de casos aquestes dues proteïnes haurien de ser similars, perquè aquests programes tenen la mateixa finalitat, però no sempre és així. Per comprovar quina de les dues proteïnes té una homologia més bona amb la query realitzarem el T_coffee per a les dues proteïnes contra la query. Si els resultats són similars hem decidit quedar-nos amb la proteïna obtinguda per Exonerate. En cas que els resultats siguin diferents, ens quedarem amb la proteïna que proporcioni un millor alineament amb la query. Un alineament pot ser millor que un altre perquè l’score sigui molt diferent, de manera que en un alineament hi ha més similaritat o l’alineament pot ser millor perquè incorpora la selenocisteïna i mentre que l’altre no la incorpora.

Per tal d’executar aquest programa substituïm la selenocisteïna de la query per X i els * (que indica una selenocisteïna o un codó stop) de la proteïna obtinguda per Exonerate per X i utilitzem les queries que tenen la selenocisteïna substituïda per X (substitució realitzada abans d’executar l’Exonerate). La comanda que es fa servir en aquest cas és:
$ t_coffee query.fa proteinaqueryVSprotista.fa > tcoffee_queryVSprotista.fa

Per tal d’optimitzar el temps, també s’ha automatitzat el programa T-coffee amb el programa en bash t-coffee. Aquest programa incorpora un programa en perl canvi_X.pl que permet substituir automàticament els * de la proteïna per X abans d’utilitzar la comanda de t_coffee (en el cas de proteïnes procedents de Exonerate). A més, aquest programa PERL ens permet substituir la selenocisteïna de les queries prèviament a l'execució del T-coffee. Amb aquest programa obtenim un alineament de la proteïna predita amb Exonerate i amb Genewise contra la query. A continuació, es comparen els resultats obtinguts per la proteïna predita per Exonerate i per Genewise i s’escull quina és la proteïna que presenta un millor alineament amb la query original.

Torna a dalt

9. BLASTp

Per comprovar que la proteïna predita a partir del genoma es correspon amb la selenoproteïna es realitza una cerca a la pàgina web de BLAST. En concret es realitza la modalitat BLASTp contra nr (no redundant).

Torna a dalt

10. Cerca d'elements SECIS

L’estructura que permet la incorporació d’una selenocisteïna (enlloc d’un codó stop) és l’element SECIS. L’element SECIS és una estructura tridimensional a l’extrem 3’UTR del gen de les selenoproteïnes. A causa d’aquesta importància en la incorporació de la selenocisteïna, aquest element hauria d’estar present en aquells genomes que tenen selenocisteïna o homòlegs en Cys.

Per realitzar la seva cerca s’utilitzen aquestes comandes:
$ export PATH=/cursos/BI/bin:$PATH

Abans d’executar la següent comanda cal realitzar un altre fastsubseq que incorpori uns 4000 nucleòtids posteriors a on situem el gen. Per això s’utilitza la següent comanda:
$ fastasubseq cDNAprotista.fa inici longitud > fastasubseqqueryVSprotista.fa

A continuació amb aquesta regió s’executa la següent comanda:
$ SECISearch.pl fastasubseqqueryVSprotista.fa > secisqueryVSprotista.fa

S’obté una imatge de l’element SECIS i la seqüència d’aquest element.
Aquestes comandes s'han automatitzat en un programa en bash.
Per altra banda, s'ha utilitzat la pàgina web per buscar aquests elements, ja que la versió de la web està més actualitzada que la versió de les comandes. Per aquest motiu, ens hem quedat amb els resultats obtinguts a partir de la pàgina web.

Torna a dalt

11. Ortòlegs i Paràlegs

Per entendre les relacions de paralogia i ortologia, podríem fer servir el programa Inparanoid, però els nostres protistes encara no figuren a la seva base de dades. Per això, hem realitzat manualment l'algoritme d'Inparanoid mitjançant l'execució de BLAST a la web.
El procediment que hem seguit consisteix en:

Realitzar un tBLASTn de la proteïna Sps1 del metazou (Homo sapiens, Drosophila melanogaster o Anopheles gambiae) contra el genoma del protist.
Realitzar un tBLASTn utilitzant com a query la proteïna que hem trobat per Sps1 en el protist i com a subject el genoma del metazou del qual hem obtingut la query inicial.
Realitzar un tBLASTn utilitzant com a query el hit per a Sps1 obtingut en el tBLASTn del punt anterior i com a subject el genoma del metazou en qüestió.
Comparar els E-values de tots els alineaments per tal d'analitzar si els E-value són més semblants dins d'una espècie (Sps1 d'humà amb Sps2 d'humà) o entre espècies (Sps1 d'humà amb Sps1 del protist).

Torna a dalt

Materials i mètodes