Estudi de les selenoproteïnes de

Miniopterus natalensis




Abstract

Introducció

Materials i mètodes

Resultats

Discussió

Conclusions

Referències

Agraïments

Autores

Contingut

  • Obtenció del genoma de Miniopterus natalensis
  • Determinació del genoma de referència
  • Obtenció de les queries
  • Automatizació del procés
  • MATERIALS I MÈTODES

    L’objectiu del treball és identificar les selenoproteïnes presents al genoma del ratpenat Miniopterus natalensis i determinar-ne la seva localització. Per fer-ho, hem fet servir seqüències de selenoproteïnes d’una espècie propera (Myotis lucifugus) i d’una espècie molt ben descrita (Mus musculus) per tal de buscar homologies amb el genoma de la nostra espècie d’interès. El procés de comparació genòmica s'ha dut a terme per mitjà d'eines informàtiques que han permès agilitzar el procés i obtenir dades acurades.

    Obtenció del genoma de Miniopterus natalensis

    El genoma de l'espècie ha estat proporcionat en un arxiu en format fasta per tal de poder treballar amb ell. Podem trobar-lo en un directori seguint l'enllaç seqüent: /cursos/20428/BI/genomes/2016/Miniopterus_natalensis/genome.fa

    A més a més, també tenim proporcionat aquest genoma indexat, és a dir, fragmentat en diferents fragments que s’agruparan formant el que coneixem com scaffolds. Això serà útil per predir les homologies amb les queries de l’espècie de referència, que anomenarem hits.

    Podem trobar l’índex al següent directori: /cursos/20428/BI/genomes/2016/Miniopterus_natalensis/genome.index

    En el cas de que haguéssim hagut de creat nosaltres l’índex ho podríem haver fet amb la comanda fastaindex: $ fastaindex /cursos/BI/genomes/2016/Miniopterus_natalensis/genome.fa mn.index

    Determinació del genoma de referència

    Per a determinar quin seria el genoma de referència s'ha procedit a buscar l'espècie filogenèticament més propera a M.natalensis de la qual poguèssim obtenir selenoproteïnes identificades. S'ha escollit l'espècie Myotis lucifugus, un ratpenat de l'ordre Chrioptera.A més, també s’ha elegit una altra esp&egrace;cie que, tot i no ser tan propera, està ben descrita: el Mus musculus. Mitjançant la base de dades de Selenoproteïnes s'han obtingut les queries de les proteïnes que ens proposarem comparar.

    Obtenció de les queries

    S'han descarregat els arxius fasta de cada proteïna i s'han guardat en una carpeta anomenada proteinsmb, de forma que l'script llegirà els noms de les proteïnes i formarà una llista. A partir d'aquesta llista, identificarà l'arxiu individual de cada proteïna amb el nom corresponent i procedirà a fer la respectiva homologia amb el genoma. Tots els arxius que s'obtenen de l'anàlisi presentaran el nom inicial de la proteïna amb diferents extensions.

    S'han considerat com a queries les següents famílies de proteïnes:

    -Sel15 de 15kDa: 1 proteïna de microbat i 1 de ratolí

    -Factors d'elongació d'eucariotes (eEFsec): 1 proteïna de microbat i 1 de ratolí

    -Glutatió peroxidasa (Gpx): 8 proteïnes de microbat i 10 de ratolí

    -Iodetironina deiodinasa (DIO): 3 proteïnes de microbat i 3 de ratolí

    -Metionina sulfòxid reductasa A (MsrA): 1 proteïna de microbat i 1 de ratolí

    -Phosphoseril-tRNA quinasa (PSTK): 2 proteïnes de microbat i 1 de ratolí

    -Proteïnes d'unió a SECIS 2 (SBP2): 2 proteïnes de microbat i 2 de ratolí

    -Selenocisteïna sintasa (SecS): 1 proteïna de microbat i 1 de ratolí

    -Selenofosfat sintasa (SEPHS): 1 proteïna de ratolí

    -Selenoproteïna H: 1 proteïna de microbat i 1 de ratolí

    -Selenoproteïna I: 1 proteïna de microbat i 1 de ratolí

    -Selenoproteïnes K: 4 proteïnes de microbat i 3 de ratolí

    -Selenorpoteïna M: 1 proteïna de microbat i 1 de ratolí

    -Selenoproteïna N: 1 proteïna de microbat i 1 de ratolí

    -Selenoproteïnes O: 3 proteïnes de microbat i 1 de ratolí

    -Selenoproteïna P: 1 proteïna de microbat i 1 de ratolí

    -Selenoproteïna R (MSRB): 4 proteïnes de microbat i 3 de ratolí

    -Selenoproteïna T: 1 proteïna de ratolí

    -Selenoproteïnes U: 3 proteïnes de microbat i 1 de ratolí

    -Tiroxines reductases (TXNRD): 3 proteïnes de microbat i 3 de ratolí

    -Proteïna d'associació a tRNA Sec 1 (SECp43): 1 proteïna de microbat i 1 de ratolí

    Automatizació del procés

    S'ha creat un i un fent servir llenguatge de programació PERL per tal que, un cop guardades les queries en una carpeta, el programa canviï les U de les selenocisteïnes per una X, determini les homologies amb el genoma de miniopterus natalensis, determini quins hits són els idonis i proporcioni les dades finals per tal de poder interpretar si la selenocisteïna s'ha mantingut, s'ha perdut o s'ha produït un guany. A més, primerament, el programa s'encarrega d'executar els programes que es necessitaran per a l'anàlisi en el sistema. Afegim una comanda que cridi al sistema per a carregar els següents mòduls:

    $ export PATH=/cursos/BI/bin:$PATH fastaseqfromGFF.pl

    $ export PATH=/cursos/BI/bin/ncbiblast/x64/bin:$PATH NCBI Blast

    $ cp /cursos/BI/bin/ncbiblast/.ncbirc ~/ NCBI Blast

    $ export PATH=/cursos/BI/soft/exonerate/x86_64/bin:$PATH Exonerate

    $ export PATH=/cursos/BI/soft/t_coffee/x86_64/bin:$PATH T-coffee

    $ export PATH=/cursos/BI/soft/genewise/x86_64/bin:$PATH GeneWise

    $ export WISECONFIGDIR=/cursos/BI/soft/genewise/x86_64/wise2.2.0/wisecfg/ GeneWise

    A continuació s'exposen les eines informàtiques que el programa ha executat per tal de ralitzar l'estudi.

    BLAST

    BLAST La funció del BLAST (The Basic Local Alignment Search Tool) és trobar regions amb similituds entre seqüències. El programa pot comparar seqüències de nucleòtids o proteïnes amb bases de dades de seqüències i calcula la significança estadística de la correspondència. El BLAST s'utilitza per establir relacions evolutives i funcionals entre seqüències així com per identificar membres de famílies gèniques.

    El BLAST utilitza un algorisme heurístic per determinar ràpidament les seqüències que presenten més homologia respecte la seqüència problema (hits). Concretament, s'ha utilitzat un tBLASTn, que permet comparar una query formada per una seqüència proteica (selenoproteïna de l'espècie més propera) amb una base de dades del genoma de Miniopterus natalensis.

    La comanda per fer córrer el BLAST és la següent:
    blastall -p tblastn -i query.fa -d genome.fa -o fitxerdesortida.blast -e 0.05 -m 8

    -p: Especifica el tipus de cerca (tblastn: especifica que és un alineament proteic)

    -i: Especifica el fitxer d’entrada; correspon a la query

    -d: Especifica la database del genoma de la nostra espècie Miniopterus natalensis

    -m: Especifica com ens mostra el nostre alineament

    el 8 concretament és perquè ens surti de forma tabulada

    o: Especifica el fitxer de sortida amb l’extensió .blast

    A partir d’aquí seleccionem només aquells hits amb un e-value menor d’e-15, a no ser que un hit anterior amb e-value bo pertanyi al mateix scaffold, en aquest cas ens quedarem amb tota la seqüència per evitar el tall de proteïnes.

    FASTAFETCH

    Amb l'ordre fastafetch el que fem és extreure la regió del genoma on hem trobat el hit: fastafetch genome.fa genome.index scaffold > scaffold.fa

    FASTASUBSEQ

    Un cop tenim la regió del genoma -scaffold-, s'ha d’extreure només la regió concreta d’un hit determinat: fastasubseq scaffold.fa start end > scaffold.fastasubseq.fa

    La posició “start” correspon al menor valor d’inici del hit -5.000, i l’end correspon a la llargada de l’scaffold + 10.000.

    EXONERATE

    El programa Exonerate ens permet predir on són els gens. D’aquesta manera podem veure si el nostre alineament està dins d’una regió exònica, i per tant, si codifica per a proteïna.

    Per executar el programa fem servir la següent comanda:

    exonerate --exhaustive yes -m p2g --showtargetgff -q query.fa -t scaffold.fastasubseq.fa | egrep -w exon > scaffold.pred.gff

    -m: Especifica el tipus d’alineament que estem emprant

    -p2g: especifica que passem de proteïna a genoma, és a dir, estem comparant una query anotada amb aminoàcids amb una seqüència de nucleòtids)

    -q: Especifica la nostra seqüència query

    -t: Especifica la seqüència amb la que comparem la query

    -exhaustive yes: Representa l'argument per a estar segurs que s'inclou tota la seqüència

    egrep -w: Especifica que només es seleccionen aquelles files del fitxer exonerate que continguin la paraula exon

    FASTASEQFROMGFF

    Per poder comparar les 2 seqüències obtingudes, primer s’ha de traduir la seqüència de DNA per a obtenir la seqüència d'aminoàcids. Es genera un fitxer que conté la seqüència de cDNA: els exons de la proteïna predit. La comanda del programa és:

    fastaseqfromGFF.pl scaffold.fastasubseq.fa scaffold.pred.gff > scaffold.pred.nuc.gff

    FASTATRANSLATE

    Aquesta comanda tradueix la seqüència, obtenint una seqüència d’aminoàcids com a output.

    fastatranslate scaffold.pred.nuc.gff -F 1 > scaffold.pred.aa.gff

    -F 1: Especifica el marc de lectura en el que traduirà

    T-COFFEE

    El programa T-COFFEE (Tree-based Consistency Objective Function for alignment Evaluation) permet fer l’alineament global de les proteïnes predites del fastatranslate amb la proteïna query. Per tant, ens permet comparar les proteïnes predites amb la query donant-nos informació sobre la seva homologia.

    t_coffee query.fa scaffold.pred.aa.gff > scaffold.t_coffee

    PREDICCIÓ DE SECIS

    Per estudiar si la proteïna obtinguda al final del procés esmentat correspon a una selenoproteïna, hem de predir els possibles elements SECIS que conté aquesta seqüència. Els SECIS són elements essencials per la síntesi de les selenoproteïnes i es es troben en l’extrem 3’-UTR del gen codificant. Per tal de realitzar aquest últim pas, utilitzem el servidor per a la predicció de selenoproteïnes que trobem al accedir al següent enllaç . En aquest servidor introduïm el fitxer scaffold.fastasubseq.fa que hem obtingut al realitzar la comanda del fastasubseq. Des d’aquesta pàgina també s’ha realitzat la predicció de Seblastian. Per a fer-ho, s’ha seguit utilitzant el fitxer scaffold.fastasubseq.fa. Amb aquest predictor s’ha observat que algunes de les nostres proteïnes del nostre genoma ja estaven en la database ja que ens les comparava amb les del Miniopterus natalensis.