Selenoproteïnes

1) Queries: Obtenció de les seqüències d'estudi

2) Genomes: Obtenció dels genomes a estudiar

3) Blast: Realització i anàlisi del BLAST

4) Regió genòmica: Extracció de la regió genòmica que potencialment conté el gen que estem buscant

5) Exonerate: Generació d'una anotació amb el programa Exonerate

6) GeneWise: Generació d'una anotació amb el programa GeneWise

7) TCoffee: anàlisi de les proteïnes obtingudes

8) Maquinària: Cerca de la maquinària

9) SECIS: Cerca dels elements SECIS

10) Automatització

1) Queries: Obtenció de les seqüències d'estudi

L'objectiu d'aquest treball és la cerca de selenoproteïnes en diferents genomes de protistes a partir de l'estudi amb dues famílies de selenoproteïnes conegudes, que són SelW i MsrA. Per això, el primer que necessitem és obtenir les seqüències d'aquestes proteïnes.

Pel que fa a la família SelW hem utilitzat seqüències trobades a la base de dades SelenoDB. Aquesta base de dades ens ha proporcionat la informació de les proteïnes que trobem a continuació i que pertanyen a genomes de dos organismes diferents:

Tanmateix, com que els resultats no semblaven molt prometedors hem volgut buscar més seqüències d'aquesta família en la base de dades dbTEU. En aquest cas hem trobat varies SelW en genomes d'organismes filogenèticament més relacionats:

Per a la família MrsA també hem obtingut seqüències de SelenoDB, que són les següents:

Els professors de l'assignatura ens han facilitat una altra seqüència de la família MrsA, que és la següent:

MsrA en Chlamydomonas reinhardtii

A totes aquestes seqüències, a les que anomenarem queries, els hem hagut de substituir la lletra “U” (que representa selenocisteïna) o bé la lletra "C" (que representa l'homòleg amb cisteïna de selenoproteïna) per la lletra “X”, pas necessari per executar els programes següents, i les hem guardat en diferents arxius. Els arxius han estat emmagatzemats en les carpetes sw i msra segons la família a la qual pertanyen.
Aquestes carpetes es troben en el directori: /homes/users/U56840/treball

Tornar a dalt »

2) Genomes: Obtenció dels genomes a estudiar

Els genomes de protistes en els quals hem buscat aquestes proteïnes han estat facilitats per els coordinadors de l'assignatura de bioinformàtica de la Universitat Pompeu Fabra. Els fitxers corresponents a aquests genomes es troben cada un en una carpeta en el directori següent: /cursos/BI/genomes/protists/2012

Els genomes analitzats pertanyen a les següents espècies: A.laibachii_Nc14, A.rara, C.fasciculata, D.discoideum_AX4, D.fasciculatum, F.cylindrus, G.niphandrodes, L.donovani_BPK282A1, L.tarentolae, P.capsici, P.polycephalum, I.multifiliis_strain_G5 S.arctica, T.congolense.

Tornar a dalt »

3) Blast: Realització i anàlisi del BLAST

   El BLAST (basic local alignment search tool) és una eina que ens permet comparar seqüències biològiques, com ara aminoàcids o DNA. Es tracta d'un algorisme que troba similituds curtes entre dues seqüències, realitzant de forma heurística alineaments locals entre les seqüències donades.

   Existeixen diferents tipus de blast (tBLASTn, BLASTp, BLASTn...). Nosaltres utilitzarem el tBLASTn, el qual permet comparar la seqüència d'aminoàcids (query) d'una proteïna contra una seqüència de nucleòtids o contra una base de dades de DNA transcrita en tots els possibles marcs de lectura (open reading frame), que serà el nostre cas.

   Així, el tBLASTn ens proporcionarà els millors alineaments possibles entre la nostra query i cada un dels genomes que volem analitzar. A aquests alineaments resultants els anomenarem hits.

   Per poder utilitzar el BLAST haurem d'extreure el software necessari. Això és possible introduint les dues comandes següents al Shell:

$ export PATH=/cursos/BI/bin/ncbiblast/bin:$PATH

$ cp /cursos/BI/bin/ncbiblast/.ncbirc ~/

D'altra banda, per poder treballar amb els genomes que es troben en els fitxers ens caldrà fer una base de dades de BLAST d'aquests genomes, tot i que en el nostre cas això no ha estat necessari perquè els nostres fitxers ja eren els adequats. Aquest pas es podria realitzar amb la següent comanda:

$ formatdb -i /cursos/BI/genomes/protists/any/nom_protista/genome.fa -p F -n genomes.fa

Un cop introduïdes aquestes comandes al shell ja és possible realitzar el BLAST amb la comanda següent:

$ blastall -p tblastn -i query.fa -d genome.fa -o fitxerdesortida

on el tipus de blast és el tBLASTn (indicat amb l'ordre “-p”), “query.fa” fa referència al fitxer on es troba la nostra query seleccionada en cada cas (indicat amb l'ordre “-i”), “genome.fa” es refereix al fitxer que conté el genoma amb el qual volem fer la cerca (indicat amb “-d”) i “fitxerdesortida” és el nom que volem donar al fitxer en el qual s'emmagatzemarà la informació del blast (indicat amb l'ordre “-o”).

Alhora d'introduir la comanda per a realitzar el blast podem afegir una ordre més, “- m 9”. Introduint aquesta ordre el blast ens proporcionarà la informació resultant de forma més resumida. Concretament, la comanda que hauríem de donar al Shell és la següent:

blastall -p tblastn -i query.fa -d genome.fa -o fitxerdesortida -m 9

   A més del primer blast que era més detallat farem aquest següent blast i utilitzarem el seu fitxer de sortida per a extreure'n de forma més senzilla la informació dels tres paràmetres citats anteriorment.

   El fitxer de sortida que ens proporciona aquest blast contindrà els hits reportats i l'utilitzarem per a extreure'n de forma més senzilla els paràmetres que ens interessen per a seguir amb l'anàlisi. És molt important que de tots els resultats obtinguts amb el blast siguem capaços de seleccionar només aquells que siguin estadísticament significatius i descartar la resta. El paràmetre que ens informa sobre la significança dels hits és l'E-value, i és un dels paràmetres del blast que utilitzarem en aquest pas del procés. L'E-value ens informa sobre el nombre de vegades que esperaríem trobar un resultat donat en una base de dades d'una mida determinada, i es pot interpretar com el número d'alineaments diferents que esperaríem que tinguessin un resultat igual o millor que el donat, per casualitat, en una búsqueda en la base de dades. Quan més alt és aquest valor menys significant és el hit. Per això, cal que establim un llindar per a l'E-value que ens permeti descartar aquells hits que presentin E-values superiors al marcat pel llindar i ens quedem només amb aquells que ens semblin suficientment significatius.

   Alhora de posar aquest límit, però, hem de tenir en compte que un llindar amb un valor molt elevat d'E-value augmentarà la probabilitat de tenir més errors, més coincidències degudes a l'atzar. Per contra, llindars d'E-values molt baixos ens ajudaran a descartar més errors però disminuiran també la sensibilitats de l'anàlisi. El llindar que nosaltres hem establert per l'E-value és de valors inferiors a 0,0001.

   Un cop seleccionats aquells hits que ens semblen prou significatius com per seguir amb l'anàlisi, els següents paràmetres que ens interessen del blast són: l'identificador de la regió del genoma on es troba el hit reportat i la posició del genoma que ocupa el primer nucleòtid del hit.

Tornar a dalt »

4) Regió genòmica: Extracció de la regió genòmica que potencialment conté el gen que estem buscant

Fins aquí, tenim que el blast ens ha donat diferents hits i nosaltres hem seleccionat els més significatius per a seguir endavant. Ara, el que volem és passar a tenir la regió genòmica on es troba cada alineament en lloc de treballar amb tot el genoma que representa més exigències computacionals.

Per això, primer necessitem aplicar una comanda que ens permetrà indexar (ordenar i enumerar) els genomes amb fastaindex i així facilitar l’anàlisi posterior, a més, es requereix per al següent pas del procés. La comanda és:

$ fastaindex /cursos/BI/genomes/protists/any/nom_protista/genome.fa genoma_protista.index

On s’indica primer la ubicació del genoma i després la ubicació del fitxer de sortida.

A continuació, executem el programa fastafetch, que ens permetrà extreure les regions genòmiques on es troben els hits, ja que ara tenim els genomes fragmentats i ordenats. La comanda necessària és:

$ fastafetch /cursos/BI/ genomes/protists/any/nom_protista/genome.fa genoma_protista.index contig > fastafetch_query_hit.fa

On primer s’indica la ubicació del genoma, llavors el nom de l’arxiu obtingut amb fastaindex, “contig” correspon a la regió del genoma on s’ha produït la alineació amb la nostra query i “fastafetch_query_hit.fa” és el fitxer de sortida del programa.

Finalment, amb el programa fastasubseq acabem de acotar la regió del hit. A partir de l’arxiu on ja tenim només la regió genòmica on es troba l’alineament, el que fem és delimitar més concretament la posició on es troba. Utilitzarem el paràmetre del blast que ens informa del nombre posicional del primer nucleòtid del hit per fixar la regió concreta on es troba el hit. Per a no perdre informació i assegurar-nos la presència del gen upstream i downstream allargarem la regió genòmica agafant 30.000 nucleòtids en total. Tots aquests valors els indiquem en introduir la comanda del fastafetch:

$ fastasubseq /cursos/BI/genomes/2011/genome.fa start llargada > genomic.fa

On indiquem primer la ubicació del genoma, “start” serà la posició del primer nucleòtid que volem contemplar, “llargada” el nombre de nucleòtids que agafem en total i “genomic.fa” el nom del fitxer de sortida.

Tornar a dalt »

5) Exonerate: Generació d'una anotació amb el programa Exonerate

El programa exonerate ens permet fer una anotació del gen a partir de l'alineament entre la query i la regió genòmica, és a dir, prediu tots els elements funcionals continguts en una seqüència genòmica.

Per poder utilitzar l'exonerate necessitem uns programes que formen part d'un software anomenat exonerate. Per poder utilitzar aquests programes cal introduir al Shell la següent ordre:

$ export PATH=/cursos/BI/bin/exonerate/i386/bin:$PATH

Ara ja podem executar l'exonerate amb la comanda:

$ exonerate -m p2g --showtargetgff -q query.fa -t genomic.fa > exonerate.fa

on “p2g” és el model de l'alineament (indicat amb l'ordre “-m”), en aquest cas proteïna vs genoma, “--showtargetgff” inclou el resultat en format GFF al fitxer de sortida, “query.fa” és la nostra query (indicada amb l'ordre “-q”), “genomic.fa” es refereix al fitxer de sortida del fastasubseq (indicat amb “-t”) i “exonerate.fa” és el fitxer de sortida.

Amb un programa perl, fastaseqfromGFF.pl, extraurem la seqüència de cDNA corresponent al fitxer GFF que ens genera l'exonerate. Per exectuar aquest programa hem d'introduir primer al Shell la comanda següent:

$ export PATH=/cursos/BI/bin:$PATH

Ara ja podem cridar el perl:

$ fastaseqfromGFF.pl genomic.fa > cDNA.fa

A continuació, exacutarem el programa fastatranslate. Aquest programa tradueix en els sis possibles marcs de lectura (ORFs) una seqüència de DNA donada a proteïna. Per executar el programa cal la comanda:

$ fastatranslate cDNA.fa > fastatranslate.fa

Si a més afegim l'ordre “-F 1” a la comanda, el programa ens dóna només la proteïna traduida en la que es considera la millor pauta de lectura. La comanda quedaria així:

$ fastatranslate cDNA.fa -F 1 > fastatranslate.fa

En general nosaltres ens fixarem en el resultat que ens dóna aquesta segona opció, però en casos en què ens sembli necessari revisarem les altres pautes de lectura.

Tornar a dalt »

6) GeneWise: Generació d'una anotació amb el programa GeneWise

El GeneWise és un programa alternatiu a l'exonerate, que també té com a objectiu fer un alineament més precís que el blast entre la query i la regió genòmica obtinguda i predir l'estructura exònica d'una seqüència nucleotídica donada. Per poder executar-lo també necessitem introduir primer comandes al Shell:

$ export PATH=/cursos/BI/bin:$PATH

$ export WISECONFIGDIR=/cursos/BI/soft/wise-2.2.0/wisecfg

Per utilitzar-lo el cridarem de la següent forma:

$ genewise -cdna -pretty -both -gff query.fa genomic.fa > genewise_detallat.fa

on “-pretty” és per a què mostri l’alineament, “-cdna” per a què mostri la seqüència genòmica alineada, “-both” és per a què analitzi en els dos sentits, forward i reverse, “-gff” per a què mostri la informació en format GFF, “query.fa” és la ubicació de la nostra query, “genomic.fa” és la subseqüència i “genewise_detallat.fa” és el nom del fitxer de sortida.

Podem fer també un GeneWise que ens doni la informació més resumida amb la comanda:

$ genewise -pep -both query.fa genomic.fa > genewise.fa

on “-pep” ens donarà la seqüència peptídica predita i “-both” és per a fer l'anàlisi tant en forward com en reverse.

Tornar a dalt »

7) TCoffee: anàlisi de les proteïnes obtingudes

Per últim, utilitzem el programa TCoffee per a fer un alineament global entre la nostra query inicial i la proteïna predita al final del procés. Així, aquest programa ens donarà una idea de com de similars són aquestes dues proteïnes i amb què s'està alineant la selenocisteïna de la query en el genoma que estudiem. A més, ens facilita una puntuació que ens dóna idea de la fiabilitat del resultat. Com que hem predit la proteïna tant amb l'exonerate com amb el GeneWise, farem un TCoffee per a cada cas.

Per executar TCoffee s’ha d’escriure la següent ordre al Shell:

$ t_coffee < fitxerFASTAsequencia1 > < fitxerFASTAsequencia2 >

on "fitxerFASTAsequencia1" és la proteïna query i "fitxerFASTAsequencia2" és la proteïna obtinguda amb l'Exonerate o el GeneWise segons cada cas.

Tornar a dalt »

8) Maquinària: Cerca de la maquinària

   Un cop realitzada la cerca de selenoproteïnes en els genomes hem volgut buscar si aquests també presenten certes proteïnes requerides per a la síntesi de selenocisteïnes, així com proteïnes necessàries per a la incorporació de selenocisteïnes en les selenoproteïnes. Aquesta informació ens ajudarà a interpretar els nostres resultats, ja que aquells genomes que sintetitzin selenoproteïnes necessitaran la presència d'aquestes proteïnes, i per tant, hauríem de trobar la seva seqüència en els genomes.

   Hem buscat cinc tipus de proteïnes de maquinària en tots els genomes: SPS2, Pstk, Secp43, SBP2, eEFsec, SLA/LP i tRNAsec.

   Per saber si els genomes contenen alguna d'aquestes proteïnes hem fet córrer el mateix programa amb el que hem buscat les selenoproteïnes però utilitzant com a queries aquestes famílies de proteïnes de maquinària.

   La informació sobre el tRNAsec, però, no l'hem buscat de la mateixa manera. Com que vam tenir certs problemes alhora d'obtenir informació sobre la presència del tRNAsec en els genomes, aquesta informació ens va ser facilitada per un professor de l'assignatura de bioinformàtica. A partir d'aquí, nosaltres la vam analitzar i en vam extreure les nostres pròpies conclusions.

Tornar a dalt »

9) SECIS: Cerca dels elements SECIS

   Per a què una selenoproteïna pugui incorporar una selenocisteïna en lloc d'un codó stop, cal la presència dels elements SECIS, entre d'altres, ubicats a poques bases de distància de la proteïna i en l'extrem 3' de la cadena. Per això, una altra eina útil a l'hora de valorar la presència o no de selenoproteïnes són aquests elements.

   Una pàgina web on podem buscar aquests elements és la pàgina SECISearch. El que fem és introduir la regió del genoma proporcionat per el fastasubseq on es trobava contingut un hit i el programa ens prediu la presència o no d'elements SECIS.

   De tots els elements SECIS proporcionats per el programa haurem de descartar aquells que no es trobin a la cadena on es troba el nostre hit, aquells que no estiguin col·locats en posició 3' respecte la proteïna predita i els que es trobin a una gran distància de la proteïna, ja que no presentarien les característiques necessàries per a ser elements SECIS.

   Val a dir, que aquest programa ens dóna una puntuació en funció de la fiabilitat per a cada element trobat. En principi, el llindar a partir del qual ens podríem fiar de què una seqüència realment sigui un SECIS és una puntuació de 15. No obstant, nosaltres no hem trobat cap element SECIS amb puntuació per sobre d'aquest llindar. Tot i així, hem decidit contemplar elements SECIS amb puntuacions inferiors però valorant cada cas, i sempre, tenint en compte el que aquestes puntuacions representen.

Tornar a dalt »

10) Automatització

Per tal de realitzar tots els passos anteriors i buscar les possibles selenoproteïnes hem cregut convenient l'automatització dels diferents programes amb scripts del Shell. D'aquesta manera evitem haver de fer el procés per a cada query, ja que n'hem tingut moltes per analitzar. Així doncs, hem creat una sèrie de seqüències de comandes que actuen repetidament sobre els diferents arxius i que ens donen els resultats de manera estructurada i accessible.

Per tal d'executar aquest seguit de comandes hem treballat sempre des d'un mateix directori en el qual hem creat, primerament, dues carpetes, sw i msra, en les quals hem guardat les queries de cada família en format fasta (query.fa). Un cop creades, ja podem executar el nostre seguit de comandes automatitzades que, a més d'executar tots els programes pertinents, creen una estructura de carpetes a les quals es va redirigint els resultats. D'aquesta manera, el programa pot obtenir les dades per als passos següents i, a més a més, les carpetes són accessibles tantes vegades com vulguem per extreure les conclusions necessàries.

Per a veure els scripts clica aquí.