Anàlisi d'una seqüència anònima de DNA



       Index:
      * Abstract.
      * Materials.
      * Característiques de la seqüència.
        - Anàlisi de les regions repetitives i enmascarament de la seqüència.
      * Predicció de gens.
        - Aplicació dels programes de predicció de gens Geneid i Genscan.
         - Validació de la predicció dels gens.
      * Anàlisi de les regions reguladores dels gens millor predits.
      * Característiques de les proteïnes predites.
      * Conclusions.
      * Referencies i agraïments.
      * Autors.



    * Abstract:
     

    El treball aquí exposat té com a objectiu l'anàlisi d'una regió anònima del genoma humà mitjançant la utilització de
    diferents eïnes computacionals. En primer lloc es va descarregar la seqüència. Seguidament es va procedir a estudiar
    les seves característiques: llargada de la seqüència, localització, contingut de G+C, estudi de les regions repetitives.
    Mitjantçant l'utilització de programes de predicció de gens es va obtenir una primera predicció dels possibles gens
    presents a la seqüència i el seu número d'exons.
    Per tal de validar la predicció d'aquest programes es va utilitzar la bases de dades de ESTs humans per tal d'obtenir
    informació sobre les possibles regions exòniques. Amb aquest conjunt de dades es va procedir a realitzar un primer
    anàlisis de la seqüència sobre les prediccions realitzades pels programes de predicció de gens. En la mateixa línia i per
    tal d'aprofundir en l'anàlisi es va procedir a recollir noves dades: en primer lloc es va utilitzar la seqüencia proteica de
    cadascun dels gens predits pel programa que amb el suport dels ESTs que millor semblava preveure els possibles gens
    dins la nostra seqüència.Per altra banda es va utilitzar un programa d'alineament de ESTs amb seqüències genomiques
    de l'intitut Pasteur per tal de optimitzar i millorar l'alineament dels ESTs més informatius. Finalment amb tota la
    informació disponible es va arribar a conclusió final sobre els gens presents en la seqüència.
    Una vegada caracteritzats els probables gens es va procedir a l'estudi de les regions promotores.
    Adicionalment es va buscar informació de les proteïnes que realment eren present a la seqüència.
    Com a conclusió final es va fer una valoració , es va fer una valoració sobre la fiabilitat dels programes de predicció de
    gens en base a les seves predicció i els resultat obtingut utilitzant tot el conjunt dades adicionals obtingudes en la
    utilització d'altres programes.
     
     índex
     
    Materials:

        Sistema Operatiu: Linux.
         Pàgina Web: Netscape Composer.

     índex
     

    * Característiques de la nostra seqüència:

           La  nostra seqüència anònima de DNA es va obtenir a partir de la base de dades NCBI amb el número d'entrada:AC090953.

         Utilitzant laseqüència en format FASTA es va calcular el número de parells de bases i el contingude G+C( mètode )
           Llargada: 189955 pb.
           Contingut de G+C:  a: 0.277471 c: 0.216009 g: 0.216867 t: 0.289563
       
      Localització. Imatge del cromosoma 3 i localització.
     índex
     
    Identificació de les Regions Repetitives:
            Per tal d'identificar les seqüències repetitives de la seqüència s'utlitza el programa  Repeat Masker. Es va utilitzar el del servidor de EMBL:
           El  EMBL Repeat Masker server.
               A partir del EMBL obtenim :
    - La seqüència enmascarada.
    - Taula de repeticions.
    - Resum de les repeticions.


            Visualització de les seqüències repetitives.
     
     

     índex

    * Predicció de Gens
     

    Aplicació dels programes de predicció de gens:
     
    Es van utilitzar dos programes per a una predicció inicial dels gens que poden existir a la nostra seqüència. Aquest programes
    són el Geneid i el Genscan.

     Es van guardar les prediccions realitzades pels dos programes. El Geneid ja ens proporciona una sortida gff, mentre que la sortida del
     Genescan cal convertir-la a arxiu a format gff per la posterior visualització amb el programa gff2ps. Mètode

    Predicció del Geneid i del Genscan.

     índex
     
    Validació de la Predicció dels Gens:
     Amb la intenció de comprovar la certesa de les prediccions realitzades pels dos programes utilitzats i aconseguir  informació adicional que
     permetés aprofundir en l'anàlisi de la nostra seqüència es van realitzar un seguit recerques de noves dades. En primer lloc:
     
     Recerca de Seqüències de ESTs en Base de Dades:

    Amb aquesta intenció comparem la seqüència AC090953 amb la base de dades de ESTs humans  a través del servidor NCBI blast, utilitzant
    la funció megablast i escollint només ESTs humans en la opció de tria de la base de dades. ( choose database )
    En la prmera cerca es van obtenir molts ESTs  els quals,  apesar de posseir  un alt "score",  només coincidien  en una estreta regió de la seqüència.
    El programa en les opcions de "Format"  per defecte proporciona 100 descripcions. Aquest resultat no era suficienment informatiu. Per obtenir
    més dades, es va ampliar aquest paràmetre fins a 250 per tal d'obenitr més descripcions. En aquest cas el resultat va ser satisfactori. Es va
    obtenir un arxiu de sortida que va ser enregistrat com: AC090953.blast.est
    Per tal de visualitzar el resultat  amb el programa gff2ps es va convertir aquest últim fitxer del seu format inicial a format gff. Mètode

    Degut a que molts ESTs només soporten un sol exó, seleccionarem aquells que com a mínim coincideixin en dues regions de la seqüència de manera que suportarien la presencia de més d'un exó. Al mateix temps aplicarem un script realitzat per Josep F.Abril per tal de visualitzar per separat aquells ESTs en forward i revers , i si són 5' o 3'. Aquesta distinció ens donarà informació sobre si són el  possible final (3') o inici d'un gen (5'). Mètode

    Imatge de la predicció de gens juntament amb els ESTs repetits, separats en forward i reverse i marcats segons siguin 3' o 5'.

    Com es pot observar encara és aviat per obtenir conclusions clares. Per tal de descartar aquella informació redundant es van eliminar aquells ESTs que eren iguals o que contenien informació ja assolida i augmentada per altres ESTs. L'arxiu final: AC090953.blast.fixed.best.gff
    Es van separar els resultats del programa gff  en dos arxius ps de sortida per tal de visualitzar per separat només les seqüències en forward o en reverse i al mateix temps es van ampliar a format din-A3 per visualitzar-ho de manera molt més clara i precisa. També es van introduir canvis respecte al títol de les imatges. Mètode

    Imatge en Reverse
    Imatge en Forward
     

    Les dades obtingudes no permeten extreure conclusions definites sobre el conjunt de prediccions realitzades pels programes, per tal d'aprofundir en l'anàlisis es va dur a terme un seguit de  noves actuacions.

    Utilització del Program EST2GENOME:

    Per tal d'aconseguir millor informació es van seleccionar els millors EST, els més informatius, i es van llançar al programa EST2GENOME
    contra la seqüència AC090953 enmascarada, ja que el EST2GENOME és un programa d'aliniament millor que el Blast que haviem utitlitzat per trobar els EST. L'objeciu era aconseguir un nou aliniament i veure si apareixien nous exons en els EST que poguèssin reforçar aquells exons de la predicció del Genscan i el Geneid que encara no ho estaven.  Es va aconseguir la seqüència dels EST seleccionats en el NCBI entrant el nom del EST, les seqüències dels ESTs es van recollir en l'arxiu seq.DNA.est.txt

    Els nous aliniaments van proporcionar nova informació (com l'aparició d'un splice site no canònic), que després amb noves recerques i dades va se utilitzada per extreure les conclusions defenititves sobre la predicció de gens a partir de la visualització dels resultats, prèvia conversió de les dades a format gff.Mètode

    Imatge de Resultats dels nous aliniaments. Forward i Reverse
     

    Blast P:

    Simultàniament a la utilització dels EST2genome es va realitzar un BlastP al NCBI entre les proteïnes predites pel Genscan i tota la base de dades, amb la intenció de confirmar l'exitència d'aquestes proteïnes.
    Es va realitzar per el Gen 2, 3, 4 en reverse ,5. Pel Gen 1 ja no es va realitzar ja que havia estat descartat com a predicció incorrecte al no existir cap EST que reforcés les prediccions.  Es van trobar Blast de gairebé el 100% amb el Gen 2, amb el Gen 4 ( reverse ) i amb el Gen 5. Amb la proteïna de major homologia, per a cada gen es va obtenir  es el seu CDS i es va realitzar  un Blast2sequence amb la  seqüència AC090953 enmascarada. Amb el aliniments de  seqüencia amb els CDS de les proteïnes homologues a les predites es podria obtenir un arxiu en format gff que ens permetés obtenir un arxiu PS que seria visualitzable.
    Els Resultats del Blast2sequence van prorporcionen tres arxius amb l'aliniament de la seqüència de cada proteïna amb la seqüènica AC090953.

    Blast2seq.gen2
    Blast2seq.gen4
    Blast2seq.gen5

     
    El cds de les proteïnes hibrida amb un 100 % d'homologia amb la seqüència fet que va permetre concloure que les 3 proteïnes eren a laseqüència problema.
    També  va permetre observar la presència d'un nous exó per al gen 2 de les posicions 95434 a la 95567 que no va ser predit en el seu moment per el Genscan.

    Per tal de visulitzar els resultats obtinguts amb el Blast P i l'utilització del EST2genome cal convertir els arxius en gff. Mètode

    Imatge de Resultats Blast2seq

     
    EST2GENOME + BLASTP
    Una vegada analitzats el resultats obtinguts amb els dos mètode anteriors per separat, es va creure interessant presentar-los  de manera   conjunta i visual.

    Imatge de Resultats EST2GENOME + BLASTP . Forward i Reverse.

    S'HAFEGEIX EL mRNA D'UNA DE LES PROTEÏNES.

    L'existència d'un EST al dibuix  sembla demostrar que correspon a un fragment del RNAm de la segona proteïna trobada mitjançant la cerca amb BlastP. Per tal de demostrar aquesta hipòtesi es va buscar la seqüència corresponent al RNAm d'aquesta proteïna coneguda i es va còrrer el programa Blast2sequence per tal d'alinear-la i poder-la presentar de manera visual amb el conjunt de resultat anteriors. (Imatge)
     

    índex
     
    * Anàlisi de les regions reguladores dels gens millor predits.

      En aquest apartat es van buscar les possibles regions promotores dels nostres gens predits, dels quals havien trobat una proteïna real.
       Per començar a treballar sobre aquest aspecte es van buscar els RNA missatgers d'aquestes proteïnes a partir del seu número d'accés.
       Proteïna trobada 1 (corresponent al gen2 de geneid i gescan)- Número d'acces en NCBI: XM_084139
       Proteïna tribada 2 (corresponent al gen4 del geneid i 5 del genscan)- Número d'accés en NCBI: AAH08322
       Proteïna trobada 3 (corresponent al gen 3 del geneid i 4 del genscan)- Número d'accés en NCBI:AAH10181

      A partir de l'aliniament amb el programa Blast2sequence dels RNA missatgers de les proteïnes trobades i la nostra seqüència no enmascarada, es va
      anotar el primer nucleòtid de la seqüència que alineava amb la seqüència de RNAm.
      Gen 2 (proteïna coneguda1): 50760
      Gen 5 (proteïna coneguda2): 141266
      Gen 4 [Reverse](proteïna coneguda3): 140909

      D'aquesta manera només s'haurien d'extreure aquelles seqüències de 200 pb anteriors a aquest primer nucleòtid trobat. Per fer-ho es va fer servir el
       programa SS (Genis Parra).Mètode
     

    Ulitització del programa MatsInspectorv2.2  que es troba en la base de dades TRANSFAC per trobar regions promotores. Mètode
     
    Imatge regió promotora proteïna 1.
    Imatge regió promotora proteïna 2.
    Imatge regió promotora proteïna 3.
    índex
     

    * Característiques de les proteïnes predites:

     Per tal de trobar totes les característiques de la nostra proteïna, es va fer una recerca a la base de dades de Swissprot/TrEMBL
     

    Proteïna trobada 1 (corresponent al gen2 de geneid i gescan)

    Número d'accés en NCBI: XM_084139

     
    Número accés de SwissProt:Q96DJ5

    Nom de la proteïna: UDP-N-ACETYL-ALPHA-D-GALACTOSAMINE:POLYPEPTIDE
                                           N-ACETYLGALACTOSAMINYLTRANSFERASE 7.

    Nom del Gen: GALNT 7

    Dominis: Glycosyl transferase, family2 / Ricin B lectin domain

    Llargada: 639 aa.

    Pes Molecular: 73063 Da.

     
    Proteïna trobada 2 (corresponent al gen4 del geneid i 5 del genscan)

    Número d'accés en NCBI: AAH08322

     
    Número accés de SwissProt:Q96HP4

    Nom de la proteïna: UNKNOWN ( PROTEIN FOR MGC: 15763 ).

    Nom del Gen: -

    Dominis:Oxidoreductase FAD/NAD(P)-binding

    Llargada:312 aa.

    Pes Molecular: 34854 Da.
     

    Proteïna trobada 3 (corresponent al gen 3 del geneid i 4 del genscan)

    Número d'accés en NCBI:AAH10181

     
    Número accés de SwissProt: Q96FX2

    Nom de la proteïna: UNKNOWN (PROTEIN FOR MGC:20197).

    Nom del Gen: -

    Dominis: -

    Llargada: 82 aa

    Pes Molecular: 9240 Da.
     

     índex
     
    * Conclusions

    Després de totes les anàlisis realitzades es pot afirmar que a la seqüència AC090953 del cromosoma 3 hi són presents tres Gens. Dos d'aquests gens es troben en Forward i corresponen als gens 2 de les prediccions del Geneid i del Genscan, i gen 4 del Geneid i 5 del Genscan.  El tercer Gen, el més curt de tots, es troba en Reverse i correspon al gen 3 del Genid i 4 del genscan.  La predicció del Geneid i del Genscan ( pel Gen 1 ) considerem que no és vàlida, ja que no era soportada per cap ESTs, ni la seqüència aminoacídica de la regió del gen correspon amb cap proteïna quan es realitza un BlastP en la base de dades del NCBI. Succeeix el mateix amb la predicció del Genscan ( Gen 3 ), gen que en aquest cas el Geneid no predèia. Aquest gen , no és suportat tampoc per cap ESTs ni es va obtenir cap resultat positiu al realitzar la cerca amb el BlastP. En el cas del Gen en Reverse les prediccions dels programes són de més extensió que el gen que codifica per la proteïna. La predicció de cada porgrama per tant només és una possible aproximació a la realitat.

    Els programes de predicció  de Gens, malgrat que permeten un coherent aproximació als possibles gens que hi ha en una seqüència, no permeten extreure conclusions definitives sobre la seva presència, i fan necessaris altres anàlisis més profunts i complementaris, com per exemple la utiltzació de la base de ESTs,  o l'ús de bases de dades de proteïnes. En en cas del ESTs, malgrat que l'aliniament que proporciona el Blast amb la base de dades de ESTs humans ja permet confirmar la presència d'un gran nombre d'exons, per tal d'optimitzar els resutats i obtenir unes conclusions realment definitives és preferible utilitzar el EST2genome, programa que permet un perfecte aliniaments amb la seqüència del ESTs seleccionats.
    Pel que fa als ESTs es important remarcar que la seva anotació ( 5' i  3' ) no és 100% fiable i tampoc si estan anotats en forward o reverse, fet que s'ha pogut comprovar amb ESTs concrets.

    Cal destacar  però que els programes de predicció de gens ( Geneid i Genscan ), només tenen en compte els llocs d'splicing per seleccionar aquells exons que són presents, quan els donor i acceptor sites són canònics. Per contra el EST2genome si que considera els llocs d'splicing no canònics.

    En l'ànalisis de les seqüències promotores, els resultats no es corresponen a les suposicions realitzades abans de utilitzar el programa MatInspector per l'estudi de la regió promotora. Sobretot és destacable la absència de la caixa promotora TATA que no és present en cap de les tres seqüències 5' upstream
    dels 3 gens considerats. Hi ha grans possibiltats de que siguin les regions promotores perquè al alinear el mRNA amb la seqüència es va obtenir les posicions on s'iniciava la regió promotora.

    La utilització de no només els programes de predicció, sinó de totes les eïnes diponibles en l'anàlisis de les dades, entre elles les aquí utilitzades, permeten extreure conclusions força més fiables sobre la presència de gens en una seqüència genòmica  previament no analitzada. Si bé per una confirmació definitiva caldria potser utilitzar altres tècniques corresponents a altres camps diferents a la Bioinformàtica.

    índex
     

    * Referències i Agraïments

      Strachan. Tom  &  Read. Andrew . Genètica Molecular Humana. Ediciones Omega, SA. Barcelona 1999.

     Agraïments al Grup de Recerca en Informàtica i Biomèdica de IMIM/UPF, i en especial a Genís  Parra per la seva gran ajuda.

    índex

    * Autors del Treball:
     

    • David Cid Colomer.  e-mail: david.cid01@campus.upf.edu
    • Joan Cabellos Vique. e-mail: joan.cabellos01@campus.upf.edu


    índex