--> Selenoproteines_TR_Fep15
*/

MATERIALS I MÈTODES



1.Obtenció dels genomes dels protistes

Els genomes dels diferents protistes han estat proporcionats pels professors de l'assignatura de Bioinformàtica. Els podem trobar al fitxer:

/cursos/BI/genomes/protists/genomes_list_and_info.tab

dins del directori:

/cursos/BI/genomes/protists/2011

dels ordinadors del campus del Mar de la Universitat Pompeu Fabra.

2.Obtenció de les querys

Les querys utilitzades en la recerca de selenoproteïnes en els diferents genomes de protistes s'han extret de diferents bases de dades:

El criteri que hem establert per seleccionar les diferents querys ha estat el següent: per una banda hem triat una o més querys humanes (si és que es trobaven en alguna de les bases de dades) i, per una altra banda, també hem agafat diferents querys d’organismes filogenèticament més propers als protistes sobre els quals fem la recerca de selenoproteïnes, és a dir, hem agafat querys d’altres protistes. En el cas de Fep15, al no haver trobat cap query humana ni tampoc querys de protistes, hem agafat les de diferents espècies de peixos que es trobaven a la base de dades de NCBI.

3.tBLASTn:localització de les regions on es troben els gens a estudiar

El BLAST (Basic Local Alignment Search Tool) és un programa informàtic que permet comparar dues seqüències biològiques i trobar regions de similaritat local entre aquestes. Existeixen diferents tipus de BLAST, segons el format de les seqüències que s’utilitzen.

En aquest punt, hem alineat les querys prèviament seleccionades amb els diferents genomes dels protistes. Per dur-ho a terme, hem realitzat un tBLASTn, que compara una seqüència protèica (una query determinada) amb una base de dades de nucleòtids (el genoma d’un protista determinat). Per a realitzar-ho, tBLASTn tradueix cada seqüència de nucleòtids en els seus sis marcs de lectura possibles. A més a més, quan s’executa el programa, aquest reemplaça directament la U (selenocisteïna) de la query per una X. Finalment, tBLASTn et proporciona el diferents hits trobats per cada selenoproteïna alineada amb cadascun dels genomes dels diferents protistes.

Per poder treballar amb aquest programa cal executar prèviament les següents ordres al shell:

$ export PATH=/cursos/BI/bin/ncbiblast/bin:$PATH

$ cp /cursos/BI/bin/ncbiblast/.ncbirc ~/

Els fitxers corresponents a les bases de dades dels genomes dels diferents protistes no es poden utilitzar com a bases de dades de BLAST directament si es troben en fitxer FASTA. Perquè puguin ser accessibles s'han de formatejar, utilitzant una comanda anomenada formatdb, que genera tres arxius essencials perquè aquest programa pugui funcionar. L'ordre que cal executar al shell és el següent:

$ formatdb -i /cursos/BI/genomes/protists/any/nom_protista/genome.fa -p F -n genomes.fa

On el paràmetre -i especifica la ruta d'accés als fitxers dels diferents genomes dels protistes, l'argument -p F indica que la base de dades no és de proteïnes i el paràmetre -n permet renombrar l'arxiu de sortida de la base de dades, que ja es podrà utilitzar per fer el BLAST.

No obstant, els arxius que ens han proporcionat ja estaven formatejats, de manera que no ens ha calgut introduir aquesta comanda.

Un cop fets els passos anteriors, hem iniciat el tBLASTn, tot executant la següent comanda:

$ blastall -p tblastn -i protein.fa -d genomes.fa -o protein.genomes.fa

On query.fa ha de ser el fitxer que contingui la selenoproteïna , genoma_protista.fa ha de ser el nom de la base de dades en la qual volem fer la cerca, és a dir, del genoma d’un protista, i query.genoma_protista.fa ha de ser el nom d'un fitxer dins el qual volem que BLAST ens emmagatzemi els resultats de la cerca. A més a més, el paràmetre -p especifica el tipus de blast que s'aplica, el paràmetre –i indica quina query s'utilitza per a fer la recerca, l'argument -d especifica l'arxiu que s'utilitza com a base de dades i el paràmetre -o serveix per a donar-li un nom a l'arxiu de sortida del BLAST.

Hem afegit, però, un altre paràmetre per a dur a terme el tBLASTn: -m 9. Aquest argument especifica al programa que creï un fitxer de sortida en format de taula per a cada query alineada amb els genomes dels diferents protistes. En les diferents columnes d'aquest fitxer trobem la identitat de la query, la regió on es troba el hit, el percentatge d'identitat, la longitud de l'alineament, els mismatches, els gaps openings, on comença l'alineament dins de la query, on acaba l'alineament dins de la query, on comença l'alineament dins de la regió, on acaba l'alineament dins de la regió, el valor E (E-value) i la puntuació (score) de l'alineament. D'aquesta manera, la comanda que hem utilitzat finalment és la següent:

$ blastall -p tblastn -i query.fa -d genoma_protista.fa -o query.genoma_protista.fa -m 9

Un cop fet el tBLASTn, hem obtingut diferents hits per a cada query alineada amb cadascun dels genomes dels protistes. No obstant, hem observat que amb la query TR de Phytophthora sojae i amb les diferents querys de Fep15 no hem obtingut cap hit o els que hem obtingut són molt dolents, de manera que hem decidit afegir un altre paràmetre al tBLASTn: -F F. El BLAST, per defecte, substitueix les regions de baixa complexitat dels genomes per Xs, ja que aquestes regions poden donar lloc a errors en els alineaments resultants, és a dir, poden donar falsos positius. No obstant, quan no s'obtenen hits interessa que no es substitueixin les regions de baixa complexitat dels genomes, i és per això que hem fet un altre BLAST on hem afegit l’argument -F F. Els resultats reportats en aquest cas els hem tingut en compte només en el cas de les querys esmentades, ja que per les altres querys ja hem obtinguts hits molt significatius amb el BLAST sense aquest paràmetre. D'aquesta manera, per dur a terme la recerca de similaritat sense que es substitueixen les regions de baixa complexitat hem introduït la següent comanda:

$ blastall -p tblastn -i query.fa -d genoma_protista.fa -o query.genoma_protista.fa -m 9 -F F

Per a automatitzar aquest pas i no haver de fer un BLAST per cada query i per cada genoma de forma individual, hem creat uns programes anomenats programa.bash i programaFF.bash que ens realitzen aquest procés de forma simultània per a totes les querys i tots els genomes dels protistes. Aquests programes reporten uns fitxers amb els alineaments de les diferents querys amb el genoma dels diferents protistes i uns altres fitxers on es troben els hits escollits mitjançant dos filtres que hem afegit als programes. El primer filtre es troba dins del mateix programa i es basa en agafar només aquells alineaments que tenen un valor E amb un exponent negatiu. En canvi, per poder aplicar el segon filtre hem creat dos programes en perl. El programa searchU.pl ens ha permès trobar de manera automàtica en quina posició es troba la selenocisteïna (U) en cadascuna de les querys, mentre que el programa final.pl ens ha permès, a partir del resultat del programa anterior, seleccionar només aquells alineaments en els que la query tingués la U alineada. Com que el programa searchU.pl ens proporciona el valor de la posició on es troba la U en la query, podem fer que el programa final.pl ens agafi només aquells alineaments on el valor de la columna que especifica on comença l'alineament dins de la query sigui igual o més petit que el valor de la posició de la U i on el valor de la columna on acaba l'alineament a dins de la query sigui igual o major que el valor de la posició de la U. Hem utilitzat aquest filtre perquè sinó obteníem alineaments amb un valor E molt bo però en quals la selenocisteïna de la query no es trobava dins de l'alineament. Per exemple, en la query TR1 humana, la U es troba en la penúltima posició, de manera que sense aquest filtre trobem alineaments de gairebé tota la query excepte dels últims aminoàcids, on es troba la selenocisteïna.

4.Selecció dels hits més significatius

El criteri general que hem establert per tal de seleccionar els hits més significatius, ha estat, per una banda que l’E-value fos inferior o igual a 10e-4, ja que el valor E s’interpreta com el nombre esperat de diferents alineaments (HSPs) que s'obtindrien amb una puntuació (score) major o igual a un valor donat, per casualitat en una recerca en una base de dades. Com més gran sigui el valor E, menys significant és el match. Per altra banda, la selenocisteïna de la query s’ha de trobar alineada amb una selenocisteïna, un codó stop (possible predicció d’una selenoproteïna) o amb una cisteïna (possible homòleg en cisteïna). No obstant, en el cas que algun dels genomes presentés escassos o inexistents hits significatius, hem considerat com a bons tots els hits que presentessin un E-value inferior a 1 i una selenocisteïna alineada amb algun altre aminoàcid, com ara la glicina.

5.Extracció de les regions genòmiques que potencialment contenen els gens a estudiar

Un cop seleccionats els hits més significatius, hem extret les regions genòmiques que potencialment contenen els gens a estudiar.

Per poder dur a terme aquest pas, el primer que cal fer és indexar, és a dir ordenar i enumerar, els genomes dels diferents protistes mitjançant el programa fastaindex. Aquest programa s'executa al shell a través de la següent ordre:

$ fastaindex /cursos/BI/genomes//protists/2011/nom_protista/genoma.fa genoma_protista.index

On genoma_protista.index correspon al nom de l’arxiu de sortida indexat.

No obstant, els arxius que ens han proporcionat com a base de dades ja estan indexats, de manera que no hem hagut d'utilitzar aquesta comanda.

Els genomes estan dividits en regions, de manera que, a continuació, hem delimitat i extret les regions dels genomes dels diferents protistes on es troben els diferents hits obtinguts mitjançant el programa fastafetch, que s'executa al shell de la següent manera.

$ fastafetch /cursos/BI/ genomes/protists/2011/nom_protista/genoma.fa /cursos/BI/ genomes/protists/2011/nom_protista/ genoma_protista.index contig > fastafetch_query_protista_hit.fa

On contig correspon a la regió on es troba el hit dins del genoma i fastafetch_query_protista_hit.fa correspon al nom de l’arxiu de sortida.

Els diferents hits es troben a dins de les diferents regions extretes amb fastafetch, però cada hit no està alineat amb tota una regió sencera. Per aquesta raó, posteriorment, hem acotat de manera més precisa aquestes regions. A partir de les posicions cromosòmiques que s'obtenen al fer el tBLASTn amb la comanda -m 9, hem estimat les posicions cromosòmiques on comença i acaba la regió sencera que ocupa cada hit en cada protista i les hem fet servir per extreure aquesta regió en un fitxer FASTA, mitjançant el programa fastasubseq (què és part dels programes que acompanyen a exonerate, un software que utilitzarem en el següent pas). Aquest programa s'executa al shell de la següent manera:

$ fastasubseq fastafetch_query_protista_hit.fa start lenght > fastasubseq_query_protista_hit.fa

En aquesta comanda start fa referència a la posició on comença la regió que volem extreure de la seqüència emmagatzemada en el fitxer que li especifiquem a continuació. Aquesta posició la definim, per a cada hit, a partir dels fitxers que contenen els resultats que obtenim al fer tBLASTn amb el paràmetre –m 9 per a cada query i cada genoma de protista. Concretament, la definim a partir de les columnes 9 o 10 d’aquests fitxers, que especifiquen on comença i on acaba l'alineament de cada hit dins de cada regió. Sempre agafem la columna amb el valor més petit, independentment de si l’alineament es produeix en sentit forward o reverse. Per una altra banda, length fa referència a la quantitat de nucleòtids que volem extreure a partir d'aquesta posició. En el nostre cas hem decidit agafar 20.000 nucleòtids upstream d’on comença l’alineament de cada hit dins de cada regió del genoma dels diferents protistes i 30.000 nucleòtids de llargada, ja que hem considerat que els gens de les selenoproteïnes dels protistes tindrien una mida d’aquesta llargada com a maxim. Així ens assegurem que el gen a estudiar es troba sencer en l’acotació.

Com que hem partit de molts hits significatius obtinguts al tBLASTn, hem automatitzat aquest procés, mitjançant un programa anomenat fastafetx.bash. Aquest programa, primerament, duu a terme el fastafetch per a cada hit i per a cada genoma dels diferents protistes. Seguidament, un cop fet el fastafetch, el mateix programa duu a terme el fastasubseq, també per a cada hit i cada genoma, però requereix dos programes més escrits en llenguatge perl. Prèviament a executar fastasubseq, fastafetx.bash emmagatzema les posicions d’inici i fi de l’alineament d’un hit concret dins d’una regió del genoma d’un protista concret. És a dir, emmagatzema els valors de les columnes 9 i 10 del fitxer obtingut amb el tBLASTn fet amb l’argument –m 9 per la query i el genoma corresponents a aquest hit. Un cop emmagatzemades aquestes posicions, fastafetx.bash executa el programa anomenat mespetit.pl, que permet conèixer quina de les dues columnes conté el valor més petit. D’aquesta manera, mitjançant aquesta dada, el programa start.pl, permet restar-li 20.000 posicions (corresponents a 20.000 nucleòtids) a aquest valor, de manera que obtenim, així, el punt inicial des d’on volem extreure la regió que potencialment conté el gen d’estudi. En cas de que al restar-li 20.000 posicions obtinguéssim un valor negatiu, start.pl adjudica el valor 0 al punt d’inici. Un cop tenim el punt inicial i la llargada de la regió que volem extreure, que com hem dit, sempre serà de 30.000 nucleòtids, el programa fastafetx.bash executa fastasubseq, obtenint així una regió per a cada hit on es troben potencialment els diferents gens d’estudi en cada protista. Hem de tenir en compte, però, que potser el genoma que estem utilitzant com a base de dades, no té 30.000 nucleòtids més enllà del punt inicial, de manera que fastasubseq ens donarà error. Perquè això no es produeixi, hem afegit unes comandes que permeten solucionar-ho. Quan fastasubseq doni error, fastafetx.bash compta en quina posició es troba l’últim nucleòtid i resta el punt inicial a aquest valor, obtenint així la llargada màxima que podrem extreure en aquests casos. Llavors, fastafetx.bash torna a executar fastasubseq adjudicant-li la nova llargada.

6.Exonerate: generació d'una anotació de cada regió, obtenció de la seqüència exònica

L’Exonerate és una eina genèrica de comparació de seqüències a parells que està dissenyada per ésser alhora general i ràpida. Permet alinear seqüències utilitzant molts models d’alineament, utilitzant o bé la programació dinàmica exhaustiva o bé una varietat d’heurístics.

L’exonerate produeix un alineament més precís que el BLAST i, a més a més, et reporta una predicció de la seqüència exònica de la seqüència introduïda, que en el nostre cas són les diferents seqüències que hem extret amb fastasubseq, on es troben potencialment els diferents gens d’estudi en els diferents genomes dels protistes.

D’aquesta manera, el que hem fet en aquest pas ha estat alinear les diferents seqüències extretes amb fastasubseq amb les seves corresponents querys.

Abans d’iniciar l’exonerate, però, s’ha de substituir el símbol U corresponent a les selenocisteïnes presents en les querys inicials per una X, ja que l’exonerate no reconeix aquest símbol.

A continuació, per tal de poder utilitzar el software exonerate cal executar al shell la següent ordre:

$ export PATH=/cursos/BI/bin/exonerate/i386/bin:$PATH

Un cop introduïda aquesta ordre, ja es pot iniciar l’exonerate mitjançant les següents comandes:

$ exonerate -m p2g --showtargetgff -q query.fa -t fastasubseq_query_protista_hit.fa > exonerate_query_protista_hit.fa

$ exonerate -m p2g --showtargetgff -q query.fa -t fastasubseq_query_protista_hit.fa | egrep -w exon > exon_query_protista_hit.gff

On el paràmetre –m especifica el model d’alineament a utilitzar i l’argument p2g indica el model d’alineament del tipus protein2genome, que compara una seqüència proteica amb una seqüència de DNA. Per una altra banda, l’argument –showtargetgff indica que el fitxer de sortida es reporti en format GFF, el paràmetre –q especifica la query que s’ha d’utilitzar (indicada a continuació) i el paràmetre –t especifica la seqüència que s’ha d’utilitzar per alinear-la amb la query (també especificada a continuació).

En la primera comanda, s’obté l’alineament de les diferents seqüències obtingudes amb fastasubseq i la query corresponent (exonerate_query_protista_hit.fa), mentre que en la segona comanda, es fa un egrep de les línies que incorporen la paraula exon, de manera que s'obtenen els exons trobats per exonerate (exon_query_protista_hit.gff).

A continuació, un cop hem extret diferents seqüències exòniques en format GFF, utilitzem el programa fastaseqfromGFF.pl [link], un altre dels programes associats a exonerate, òbviament només en aquells casos en que el programa exonerate ens hagi reportat resultats. Aquest programa ens permet obtenir la seqüència exònica en format FASTA. S’executa introduint les següents comandes al shell:

$ export PATH=/cursos/BI/bin:$PATH

$ fastaseqfromGFF.pl fastasubseq_query_protista_hit.fa exon_query_protista_hit.gff > cDNA_query_protista_hit.fa

On cDNA_query_protista_hit.fa fa referència a l’arxiu de sortida que conté la seqüència exònica corresponent.

Tots aquests passos, però, els hem automatitzat mitjançant un programa anomenat exonerate.bash, ja que, com hem comentat, disposem de bastants hits significatius. A més a més, hem creat un programa, anomenat substitucio.pl que ens permet substituir les U (selenocisteïnes) de les diferents querys per X, ja que aquest és un pas necessari previ a executar exonerate.

7.Fastatranslate: obtenció de la seqüència proteica

Fastatranslate és un altre programa associat al software exonerate que té com a objectiu traduir la seqüència exònica en format FASTA obtinguda mitjançant el programa fastaseqfromGFF.pl en els sis marcs de lectura possibles.

Aquest programa s’executa introduint la següent comanda al shell:

$ fastatranslate cDNA_query_protista_hit.fa > protein_query_protista_hit.fa

On protein_query_protista_hit.fa fa referència al fitxer de sortida que conté la seqüència proteica corresponent.

Aquest pas també està automatitzat mitjançant el mateix programa que abans (exonerate.bash). És a dir, el programa exonerate.bash executa a la vegada totes les comandes del pas anterior i la comanda fastatranslate per a tots els hits. Així doncs, un cop executat aquest programa hem obtingut sis proteïnes diferents per a cada hit.

Per escollir la proteïna traduïda amb el marc de lectura correcte per a cada hit, hem agafat aquella amb la qual, un cop fet el TCoffee en el pas 10, s'alinea millor amb la query. Això ho hem valorat mitjançant l'score que té cada alineament resultant del TCoffe. Tot i això, aquest raonament no és del tot vàlid per a tots els casos ja que si els hits obtinguts són poc rellevants segurament seleccionarem la proteïna erròniament perquè tots les proteïnes quedaran igualment mal alineades. En el nostre cas, però, al fer el tcoffee sempre obtenim un alineament amb un score molt més alt que els altres per a cada hit i, per tant, aquest procediment ens ha servit.

8.Alineament: anàlisi de les proteïnes obtingudes

TCoffee és una eina que computa, avalua i combina alineaments múltiples de seqüències. Així, donat un conjunt de seqüències en format FASTA sense alinear, aquest programa retorna un alineament múltiple de seqüències i, a més a més, produeix l’arbre filogenètic associat. Aquest software també permet avaluar la fiabilitat local d’un alineament existent i combinar diversos alineaments múltiples en un de nou. Es pot utilitzar per alinear seqüències de DNA, de RNA o proteïnes. TCoffee pot processar un conjunt de dades de fins a 100 seqüències.

Com que hem utilitzat quatre o cinc querys per cada família de selenoproteïnes i hem seleccionat un o dos hits per cada alineament significatiu d’aquestes querys amb els genomes dels diferents protistes, hem obtingut una proteïna o dues per cada query i genoma (òbviament només en els casos en que hem trobat hits significatius al fer el tBLASTn). Per aquesta raó, com que per a un mateix genoma, hem obtingut diferents proteïnes corresponents a querys de la mateixa família de selenoproteïnes, hem realitzat un alineament múltiple d’aquestes mitjançant el programa TCoffee per observar si es corresponien, és a dir, si eren en realitat la mateixa proteïna.

9.GeneWise: alternativa a exonerate

GeneWise és una alternativa a exonerate quan aquest últim no reporta resultats o els que reporta són erronis. No obstant, l’objectiu és el mateix: alinear seqüències de manera més precisa que el BLAST i predir la seqüència exònica d’una seqüència nucleotídica donada. D’aquesta manera, també es pot dur a terme per comprovar els resultats que s’han obtingut amb exonerate.

Amb GeneWise també alineem les diferents seqüències extretes amb fastasubseq amb les seves corresponents querys.

Abans d'executar aquest programa cal introduir prèviament les següents ordres al shell:

$ export PATH=/disc8/bin:$PATH

$ export WISECONFIGDIR=/disc8/soft/wise-2.2.0/wisecfg

Una de les principals diferències amb l’Exonerate és que, per executar aquest programa, s’ha d’indicar la direccionalitat de l’alineament, ja que és sensible a aquest factor.

Així, si tenim una cadena en sentit forward, per executar GeneWise hem d’introduir la següent comanda al shell:

$ genewise -pep -pretty -cdna -gff query.fa fastasubseq_nom.fa > genwise_query_protista_hit.fa

Mentre que si la cadena és reverse, hem d’introduir l’argument -trev:

$ genewise -pep -pretty -cdna -gff –trev query.fa fastasubseq_nom.fa > genwise_query_protista_hit.fa

On el paràmetre -pep especifica que et mostri la proteïna predita en el fitxer de sortida, -pretty especifica que es mostri l'alineament en el fitxer de sortida, -cDNA especifica que es mostri el cDNA en el l'arxiu de sortida, i -gff especifica que es mostri el gen anotat en format GFF en el fitxer de sortida.

No obstant, per automatitzar aquest procés, hem afegit el paràmetre -both, que permet dur a terme l'alineament en les dues direccions. D'aquesta manera, la comanda que hem introduït és la següent:

$ genewise -pep -pretty -cdna -gff -both query.fa fastasubseq_nom.fa > genwise_query_protista_hit.fa

Axí, aquest pas està automatitzat mitjançant el programa genewise.bash, que utilitza les querys que haviem utilitzat per executar el programa exonerate, en les que ja havíem substituït les U (selenocisteïnes) per X (substitucio.pl).

10.TCoffee: anàlisi de les proteïnes obtingudes

Hem fet servir TCoffee per alinear les proteïnes resultants trobades amb fastatranslate (procedents de l'Exonerate) amb les querys originals corresponents a partir de les quals hem començat la recerca de selenoproteïnes. També hem executat el programa tcoffe per les proteïnes trobades amb genewise. D'aquesta manera, en els casos en que l'exonerate no ens ha reportat resultats, hem utiltizat els resultats del TCoffee de GeneWise. Mitjançant aquest programa podem veure quin grau de similaritat hi ha entre la proteïna i la query a comparar i amb què s’alinea la selenocisteïna present en la query. Si aquesta s’alinea amb un stop, voldrà dir que probablement haurem trobat una selenoproteïna.

Per executar tcoffee s’ha d’escriure la següent ordre al shell:

$ t_coffee protein_query_protista_hit.fa query.fa > t_coffee_protein_query_protista_hit.fa

On protein_query_hitnom.fa fa referència a la proteïna obtinguda amb fastatranslate i query.fa fa referència a la query original corresponent.

Aquest procés l’hem automatitzat mitjançant t_coffee.bash, que executa TCoffee tant pel les proteïnes obtingudes amb l'Exonerate com amb les proteïnes obtingudes amb el GeneWise. En el cas de GeneWise no hi ha problema perquè tan sols tenim una única proteïna per a cada hit. No obstant, com que el fastatranslate tradueix el cDNA en els sis marcs de lectura possibles, obtenim un fitxer per a cada hit amb sis proteïnes diferents, una darrere de l'altre. Per aquesta raó, hem creat un programa escrit en perl i anomenat goexplote.pl, que col·loca cada proteïna del document inicial reportat pel fastatranslate en un fitxer FASTA individual. A continuació, ja hem pogut executar el TCoffee tant per totes les proteïnes obtingudes mitjançant l'Exonerate com amb les proteïnes obtingudes amb el GeneWise. Abans d'executar aquest programa, però, hem executat el programa foraasterisc.pl, que canvia els asteriscs presents en els fitxers que contenen les seqüències aminoacídiques per X, ja que TCoffee no els reconeix.

A continuació hem dut a terme un altre programa, anomenat seleccio_tcof_exo.bash, que tria l'alineament resultant de tcoffee amb el millor score per a cada hit. Per a fer això, conté un programa escrit en perl anomenat valorscore.pl, que guarda els scores de cada alineament en un fitxer nou. Després el programa seleccio_tcof_exo.bash agafa aquests scores, els compara mitjançant un altre programa anomenat sCORgran.pl tria el millor de cada hit i els guarda en carpetes noves.

11.Recerca de similaritat en una base de dades no redundant

Un cop hem obtingut les diferents proteïnes i les hem analitzat, hem dut a terme un blastp d’aquestes contra el conjunt no-redundant de totes les proteines disponibles a NCBI. Per a fer-ho, hem utilitzat el software netblast de la següent forma:

$ export PATH=/cursos/BI/bin/netblast/bin:$PATH

$ blastcl3 -p blastp -i protein_query_protista_hit.fa -d nr – o blastp_protein_query_protista_hit.fa

On blastcI3 especifica l’execució d’un tipus de blast que interacciona directament amb el servidor NCBI BLAST i utilitza les seves bases de dades. L’argument –p especifica el tipus de blast que s'aplica, que en aquest cas és blastp perquè partim d’una proteïna. El paràmetre –i indica quina proteïna s'utilitza per a fer la recerca, l'argument -d nr especifica que l'arxiu que s'utilitza com a base de dades és la base de dades no redundant del servidor NCBI i el paràmetre -o serveix per a donar-li un nom a l'arxiu de sortida d’aquest BLASTp. Protein_query_protista_hit.fa fa referència al fitxer que conté la seqüència proteica corresponent i blastp_protein_query_protista_hit.fa referència al fitxer de sortida que conté els resultats del BLASTp.

Aquest procés, però, també l’hem automatitzat mitjançant un programa anomenat blastp.bash,

12.Cerca d'elements SECIS

La recodificació del codó UGA (que normalment és utilitzat com a codó stop) com a codó per la selenocisteïna és mediada per una estructura tridimensional que es troba generalment a uns 4000 nucleòtids de l’extrem 3’ no traduït dels gens de les selenoproteïnes, anomenada SElenoCystein Insertion Sequence (SECIS) Element. Per aquest motiu, hem buscat aquests elements SECIS en tots els genomes dels diferents protistes, tant en els que hem trobat selenoproteïnes, com en els que hem trobat homòlegs amb cisteïna com en els que no hem trobat cap de les dues possibilitats anteriors. Hem decidit fer-ho d’aquesta manera per poder comprovar diferents coses: en el cas de trobar elements SECIS en un genoma en el qual hem trobat una selenoproteïna, estaríem corroborant fins a un cert punt la troballa; en el cas de trobar elements SECIS en un genoma amb un homòleg en cisteïna, podríem pensar que aquell genoma anteriorment contenia una selenocisteïna i que els elements SECIS s’han conservat; i en cas de no trobar cap de les dues possibilitats anteriors però sí elements SECIS, podríem pensar o bé que aquell genoma també contenia la selenoproteïna anteriorment i que per aquesta raó els elements SECIS s’han conservat o bé que els elements SECIS estan implicats en altres processos.

La recerca d’elements SECIS es pot fer a través de la pàgina web que conté el software SECISearch o mitjançant la introducció de les següents comandes al shell:

$ export PATH=/cursos/BI/bin:$PATH

$ SECISearch.pl fastasubseq_query_protista_hit.fa > SECIS_query_protista_hit.fa

On SECIS_query_protista_hit.fa és l’arxiu que reporta el software SECISearch.pl, on podrem veure si ha trobat elements SECIS o no.

Prèviament a buscar aquests elements SECIS, però, ens hem assegurat que els exons que hem extret amb exonerate o genewise es troben en una posició determinada dintre del fastasubseq corresponent, de manera que on s’acaba la seqüència exònica dintre d’aquest arxiu encara hi hagin uns 6000 nucleòtids en l’extrem 3’. D’aquesta manera, ens assegurem que si hi ha elements SECIS, els podrem trobar en aquests arxius reportats per fastasubseq. En el casos on no es compleix això, hem fet un nou fastasubseq on hem augmentat la llargada o l’inici uns 6000 nucleòtids segons si la seqüència es trobava en sentit forward o reverse, respectivament.

En un principi hem utilitzat el programa SECISearch.pl i hem automatitzat aquest procés mitjançant un programa anomenat SECIS.bash, que incorpora el software SECISearch.pl i que duu a terme la cerca d’elements SECIS en totes les seqüències reportades pel fastasubseq.

No obstant, en alguns casos no hem obtingut resultats coherents, de manera que hem accedit a la pàgina web per a fer la cerca d’aquests elements SECIS.

13.Alineament de les selenoproteïnes obtingudes

Un cop hem analitzat les diferents proteïnes obtingudes en cada genoma i hem triat les que considerem que corresponen a selenoproteïnes, hem fet un alineament múltiple d’aquelles que pertanyen a la mateixa família mitjançant el programa TCoffee, ja utilitzat anteriorment. D’aquesta manera, hem pogut observar el grau de similaritat entre elles i els dominis conservats que presenten.

14.Cerca de maquinària de transcripció de les selenoproteïnes

Existeix una maquinària molecular específica necessària per sintetitzar les selenoproteïnes en els genomes que en contenen. Per aquesta raó, hem decidit fer una cerca d’alguns components d’aquesta maquinària i corroborar, d’aquesta manera, els resultats obtinguts o aportar-ne una nova visió.

Per a dur a terme aquesta cerca hem realitzat tots els passos explicats fins ara (excepte els pasos 12 i 13) però partint d’unes querys diferents, corresponents als elements que porten a terme la transcripció de les selenoproteïnes. Així les diferents querys utilizades s’han extret, com les anteriors, de les bases de dades SelenoDB o NCBI i són:

Els professors de l’assignatura ens han proporcionat els resultats de la cerca de tRNAsec en els diferents genomes, ja que el servidor tRNAscan-SE, que et permet buscar aquests elements, no funcionava correctament. Aquests resultats es poden veure en el següent enllaç: http://genome.crg.es/~mmariotti/trnas.html

Per assegurar que les proteïnes implicades en la síntesi de les selenoproteïnes que hem trobat en els genomes dels diferents protistes estudiats són realment funcionals hem decidit buscar els motius catalítics d'aquestes proteïnes. Aquestes regions les hem extret de la base de dades de NCBI, on podem trobar les regions que corresponen a punts d'interaccions entre les diferents proteïnes, a punts d'unió al RNA o que creiem que són rellevants per a la funció de la proteïna.

D'aquesta manera, per la proteïna eEFSec hem localitzat dues regions. La primera correspon a una regió similar al domini d'unió a GTP del factor d'elongació EF-TU (veure) i la segona és un domini conegut com a SelB que se sap que és homòleg al factor d'elongació EF-TU (veure). Per la pstk, el domini que hem seleccionat correspon pràcticament a tota la proteïna, però ens confirma la seva funció ja que correspon amb un domini trifosfat hidrolasa de nucleòsids (veure). En el cas de la proteïna sbp2, hem pres com a motiu necessari un domini altament conservat de la família de les Ribosomal-L7Ae (veure). Per la proteïna SECp43 hem escollit una regió que contenia un motiu RRM (RNA recognition motif) (veure). Finalment per la proteïna SecS hem agafat una regió que contenia uns motius aspartat aminotransferasa (AAT) que hem pensat eren necessaris per a la funció de SecS (veure).

Un cop obtinguts els potencials motius catalítics de les diferents proteïnes que formen la maquinària de síntesi de les selenoproteïnes hem realitzat un nou alineament utilitzant el TCoffee, on hem alineat cada proteïna de la maquinària amb les regions que hem seleccionat per aquella proteïna i amb els genomes dels protistes que hem estudiat.



*Per descarregar tots els programes en un fitxer comprimit feu clic aquí