SelenoproteinsThioredoxinReductase
Recerca en genomes de protistes
Materials i mètodes
1.Obtenció de les querys
2.Obtenció dels genomes de protistes
3.Recerca de similaritat: Basic Local Alignment Search Tool
4. Anàlisi del BLAST
5. Extracció de la regió genòmica on potencialment es troba el gen que busquem
6. Obtenció de la seqüència exònica i peptídica: Exonerate i Genewise
7. Programes associats a Exonerate
8. Anàlisi de la seqüència proteica: Tcoffee
9. Expert Protein Analysis System: Expasy
10. Cerca d'elements SECIS (selenocysteine insertion sequence)
1.Obtenció de les querys
Hem realitzat la cerca de selenoproteïnes de la família TR mitjançant la utilització de diferents querys:
- Query humana TR1: Obtinguda de la base de dades SelenoDB
- Query del protista Aerococcus Anophagefferens: Obtinguda dels resultats d'un treball realitzat el curs 2008-2009.
- Querys híbrides: Utilitzades quan l'alineament no tenia prou qualitat com per permetre l'execució correcta de l'exonerate i aquest programa ens remitia “completed exonerate analysis”. En aquest cas havíem de recórrer a un recurs alternatiu que consisitia en utilitzar una query híbrida creada a partir dels extrems de la query inicial i el fragment central del genoma del protista que estàvem analitzant.
A l'hora d'escollir les querys teníem en compte diferentes aspectes: Teníem preferència per les query que contenien una selenocisteïna com és el cas de la humana o la de Aeurococcus anophagefferens; però si no era possible ens conformàvem amb els homòlegs en cisteïna. Un altre aspecte que teníem en compte era que la query estigués completa i per tant que presentés el fragment inicial que inclou la metionina.
Tornar a dalt2.Obtenció dels genomes de protistes
Els genomes d'aquests organismes van ser facilitats pels professors de l'assignatura de Bioinformàtica distribuïts en diferents carpetes en funció de l'any en que havien sigut anotats. En el nostre cas hem analitzat els genomes dels anys 2009 i 2010.
Tornar a dalt3.Recerca de similaritat: Basic Local Alignment Search Tool
El BLAST és una eina informàtica que ens permet trobar regions de similaritat local entre dues seqüències. Existeixen diferents tipus de BLAST segons el format de les seqüències que estem comparant. Per tal de trobar els possibles alineaments entre la nostra família de selenoproteïnes (TR) i els diferents genomes de protistes anotats es va utilitzar el programa tBLASTn, que ens realitza una comparació entre la nostra query proteica (seqüència aminoacídica) contra una base de dades de DNA (genomes dels protistes).
Per començar a treballar amb aquest programa cal que fem les següents exportacions al terminal:
$ export PATH=$PATH:/disc8/bin/ncbiblast/bin
$ cp /disc8/bin/ncbiblast/.ncbirc ~/
Els genomes dels protistes eren utilitzats com a bases de dades sobre els que aplicar la recerca de similaritat amb el BLAST. Aquests genomes eren arxius en format FASTA, que contenen una única línia amb informació anomenada defline, que presenta el símbol “>” seguit de la descripció de la seqüència que conté l'arxiu. Els arxius de text amb seqüències en format FASTA o ASN.1 no poden ser utilitzades directament com a bases de dades del BLAST durant una recerca de similaritat. Per fer que siguin reconeguts per aquest programa és necessari formatejar-los utilitzant una eina informàtica anomenada formatdb, que genera tres arxius imprescindibles pel programa BLAST. L'execució del programa es realitza mitjançant la següent comanda:
$ formatdb -i /cursos/BI/genomes/protists/any/nom_protista/genome.fa -p F -n genoma_protista.fa
on, l'argument -i indica el pathway que s'ha de seguir per arribar al genoma del protista, el paràmetre -p F (false) ens informa que la base de dades no és un arxiu de proteïna i on l'argument -n ens permet renombrar l'arxiu de sortida de la base de dades.
L'execució d'aquest programa es realitza mitjançant:
$ blastall -p tblastn -i query.fa -d genoma_protista.fa -o tblastn_queryVSgenoma.fa
on, l'argument -p indica el tipus de blast que s'aplica, seguit del paràmetre -i que especifica la query que s'empra per fer la recerca i el paràmetre -d que indica l'arxiu gen`mic que s'utilitza com a base de dades. Finalment, l'argument -o especifica el nom de l'arxiu de sortida del BLAST.
Existeixen d'altres paràmetres que ens han resultat molt útils alhora de dur a terme la recerca:
- -F F: el Blast, degut al procediment query filter, per defecte substitueix les zones de baixa complexitat dels genomes per regions d'Xs, ja que poden comportar un biaix dels valor d'e de l'alineament resultant. Tanmateix, en el nostre cas no ens interessa que es produeixi aquesta substitució, i per tant, calia afegir el paràmetre -F F al final de la comanda.
- -m 9: el format amb què ens mostra els resultats el BLAST ens dificulta l'anàlisi de les dades, pel que és necessari indicar al programa que ens reporti un arxiu de sortida en format de taula, on inclou d'altres dades addicionals que ens són d'interés, com per exemple, les posicions dels alineaments trobats. Només cal afegir -m 9 al final de la comanda descrita en el paràgraf anterior.
D'aquesta manera, la comanda que s'utilitzaria per tal de aplicar tots aquests paràmetres, és la següent:
$ blastall -p tblastn -i query.fa -d genoma_protista.fa -o tblastn_queryVSgenoma.fa -F F -m 9
Un alternativa per l'optimització del procés enlloc de realitzar un BLAST per cada genoma, de forma individual, és l'automatització del procediment. Per realitzar aquesta tasca cal crear un programa PERL que inclogui totes les comandes anteriors.
Exemple que s'escriuria en el cas d'analitzar els genomes del 2009:
#!/bin/bash
for genome in Toxoplasma_gondii_GT1 Perkinsus_marinus Plasmodium_chabaudi Plasmodium_berghei Neospora_caninum Leishmania_mexicana Leishmania_braziliensis Eimeria_tenella Entamoeba_invadens Emiliania_huxleyi Entamoeba_dispar Acanthamoeba_castellanii Aureococcus_anophagefferens; do {
blastdb=`grep $genome /cursos/BI/genomes/protists/genomes_list_and_info.tab | cut -f 4`
blastall -p tblastn -i query.fa -d $blastdb -o genoma_protista$genome.fa
} done
Per suposat, els paràmetres descrits anteriorment, poden aplicar-se a aquesta recerca automatitzada.
Tornar a dalt4. Anàlisi del BLAST
A partir de la utilització de l'aplicació anterior s'obtindran els diferents alineaments i s'escolliran aquells que presentin un e-value significatiu (e-value < 10-4). Aquest valor és un paràmetre indicatiu de la probabilitat de trobar un hit concret per atzar en una base de dades d'una determinada mida. Com més baix sigui aquest valor millor serà el hit.
Un cop escollits els hits més significatius, s'ha de comprovar que l'alineament és correcte i que la selenocisteïna de la proteïna utilitzada com a query es troba alineada amb una selenocisteïna o una cisteïna homòloga a la regió genòmica del nostre protista.
Tornar a dalt5. Extracció de la regió genòmica on potencialment es troba el gen que busquem
Un cop escollit l'alineament o alineaments que són d'interés es procedeix a l'extracció de la seqüència genòmica del contig significatiu. El primer que cal fer és indexar (ordenar i enumerar) el genoma del protista que s'utilitza com a base de dades a través de l'aplicació del programa fastaindex, mitjançant la següent comanda:
$ fastaindex /cursos/BI/ genomes/protists/any/nom_protista/genome.fa genoma_protista.index
A continuació ja es procedeix a extreure la regió genòmica d'interès. Es comença per delimitar el scaffold on tenim la proteïna per mitjà del programa fastafetch. Això ho fem a partir de:
$ fastafetch /cursos/BI/ genomes/protists/any/nom_protista/genome.fa genoma_protista.index 'identificador del contig' > fastafetchqueryVSprotista.fa
Un exemple en el nostre cas és el següent:
$ fastafetch /cursos/BI/ genomes/protists/any/nom_protista/genome.fa genoma_protista.index 'gi|56525189|emb|CAAJ01002935.1|' > fastafetchanophaVSchabaudi.fa
Posteriorment s'acota millor la zona on es troba la regió d'interès per tal d'obtenir una seqüència més curta amb la que serà més fàcil treballar. Per tal d'assegurar que s'inclouen els extrems 3' i 5' sempre s'agafarà una regió upstream i downstream d'entre 1 i 5 kbp. Es va utilitzar el fastasubseq per tallar la regió, utilitzant la següent comanda:
$ fastasubseq fastafetchqueryVSprotista.fa inici longitud > fastasubseqqueryVSprotista.fa
Com a nucleòtid d'inici s'agafa el més petit independentment de si l'alineament es produeix en sentit forward o reverse.
Tornar a dalt6. Obtenció de la seqüència exònica i peptídica: Exonerate i Genewise
Per començar cal especificar que aquests dos programes tenen la mateixa finalitat. Inicialment s'utilitza l'Exonerate i per complementar la informació obtinguda per aquest s'utilitza el Genewise.
Aquests dos programes reporten un nou alineament més prec´s que l'obtingut amb el BLAST i a més prediuen el nombre d'exons de la proteïna potencial.
Exonerate
Un aspecte important que s'ha de tenir en compte a l'hora d'emprar aquest programa és que no reconeix el símbol U que representa les selenocisteïnes, per tant, caldrà substituir-lo per una 'X' al fitxer que conté la nostra query.
Primerament haurem de donar el permís corresponent:
export PATH=/cursos/BI/bin/exonerate/i386/bin:$PATH
Per realitzar la comanda haurem d'escriure el següent:
$ exonerate -m p2g --showtargetgff -q query.fa -t fastasubseqqueryVSprotista.fa > alineamentqueryVSprotista.fa
$ exonerate -m p2g --showtargetgff -q query.fa -t fastasubseqqueryVSprotista.fa | egrep -w exon > alineamentqueryVSprotista.exonerate.gff
$ fastaseqfromGFF.pl fastasubseqqueryVSprotista.fa alineamentqueryVSprotista.exonerate.gff > cDNAprotista.fa
El que s'obté després de la realització de totes aquestes comandes és la seqüència del cDNA que s'havia extret a partir del hit més significatiu.
Genewise
Aquest programa permet obtenir la seqüència aminoacídica de la proteïna predita, el cDNA, saber el número d'exons i obtenir un alineament entre la proteïna predita de l'organisme protista contra la proteïna de partida, en la regió genòmica delimitada. Tanmateix, a diferència del mètode anterior, en aquest cas només compara una seqüència d'un microorganisme en cada comanda.
Abans d'executar el programa caldrà exportar l'aplicació a través de la següent comanda:
$ export PATH=/disc8/bin:$PATH
$ export WISECONFIGDIR=/disc8/soft/wise-2.2.0/wisecfg
Una altra característica que diferencia el Genewise de l'Exonerate és que el primer és sensible a la direccionalitat del possible alineament, així doncs caldrà fer una comanda segons tinguem strand forward o reverse.
Forward:
$ genewise -pep -pretty -cdna -gff query.fa fastasubseqqueryVSprotista.fa > genewisequeryVSprotista.fa
Reverse:
$ genewise -pep -pretty -cdna -gff -trev query.fa fastasubseqqueryVSprotista.fa > genewisequeryVSprotistarev.fa
Un cop extreta la seqüència proteica d'interès es va comprovar que aquesta estigui completa, ja que en molts casos s'obtenien proteïnes a les que els hi falta el fragment inicial de la regió codificant o un fragment final que justament hauria de contenir la selenocisteïna o l'homòleg en cisteïna. Per poder extreure la proteïna completa s'introduïa la seqüència obtinguda a la base de dades de proteïnes del NCBI i es realitzava un blastp. D'aquesta manera s'obtenia la informació que faltava: de quin tipus de proteïna es tractava, homologies en altres organismes, etc.
En alguns dels casos el fragment final que faltava corresponia a un domini exclusiu de la Tiorredoxin reductasa, que diferencia aquesta família de proteïnes de la família de les Glutation reductases, unes proteïnes que presenten un elevat grau d'homologia i que moltes vegades poden portar a confusions.
Tornar a dalt7. Programes associats a Exonerate
Mitjançant la comanda que veiem a continuació:
$ fastatranslate -F 1 cDNAqueryVSprotista.fa > proteina_queryVSprotista.fa
s'aconsegueix la traducció de la seqüència de cDNA a proteïna. Aquesta, només serà necessària quan es parteixi de les dades obtingudes de l'Exonerate.
Un altre programa associat a l'exonerate és el fastarevcomp, una eina informàtica que permet calcular la seqüència complementària inversa. La seva aplicació es realitza a travós de la següent ordre:
$ fastarevcomp fastasubseqqueryVSprotista.fa
Tornar a dalt8. Anàlisi de la seqüència proteica: Tcoffee
El programa t-coffee fa alineaments múltiples entre seqüències, tant genòmiques com proteiques. Aquesta aplicació funciona comparant seqüències de dos en dos, produint alineaments globals.
En aquest cas, es va emprar per alinear la proteïna predita mitjançant els programes informàtics anteriors amb les querys utilitzades.
Un pas previ que és essencial per tal que el t-coffee tingui un correcte funcionament, és el canvi del símbol “ * ” (que indica la presència d'una selenocisteïna o d'un codó stop) a la seqüència aminoacídica obtinguda i substituir-lo per una “ X ”.
La comanda que es fa servir en aquest cas és:
$ t_coffee query.fa proteinaqueryVSprotista.fa > tcoffee_queryVSprotista.fa
Tornar a dalt9. Expert Protein Analysis System: Expasy
Es tracta d'un servidor de proteòmica que analitza seqüències i estructures de proteïnes.
En alguns casos s'obtenien alineaments en els que la selenocisteïna o cisteïna homòloga present a la query quedava enfrontada a una glicina. Partint del coneixement que no existeix homologia amb glicina es procedia a la utilització del servidor Expasy, amb la finalitat d'extendre en tots els frames possibles la seqüència obtinguda del genoma del protista. D'aquesta manera es comprovava la possible presència d'una cisteïna homòloga o d'un codó stop mal anotat (selenocisteïna) desplaçada algunes posicions.
Tornar a dalt10. Cerca d'elements SECIS (selenocysteine insertion sequence)
En resposta a un dels objectius del nostre treball, cal confirmar que el codó TGA trobat no correspon a una senyal de finalització de la traducció sinó que es tracta d'una selenocisteïna mal anotada. Això es duu a terme a partir de la cerca dels elements SECIS els quals són els responsables d'aquest canvi en la traducció.
La seva recerca es pot realitzar a través de 2 mètodes.
Un dels mètode consisteix en l'ús d'una línia de comandes disponible a les aules del campus del mar mitjançant les comandes que es troben a continuació:
$ export PATH=/cursos/BI/bin:$PATH
Abans d'introduir la següent comanda cal fer un nou fastasubseq on s'agafen els 4000 nucleòtids posteriors a on situem el gen. La comanda que es fa servir per obtenir finalment l'element SECIS és la següent:
$ SECISearch.pl fastasubseqqueryVSprotista.fa > secisqueryVSprotista.fa
D'aquesta manera s'obté per una banda la seqüència que defineix el SECIS i per una altra la imatge d'aquest element.
Una alternativa seria fer la cerca mitjançant la plana del software SECISearch que et proporciona la mateixa informació esmentada anteriorment.
Tornar a dalt