AC090953: Una seqüència anònima de DNA



     índex

      * Abstract.
      * Materials.
      * Característiques de la seqüència.
        - Anàlisi de les regions repetitives i emmascarament de la seqüència.
      * Predicció de gens.
        - Aplicació dels programes de predicció de gens Geneid i Genscan.
         - Validació de la predicció dels gens.
      * Anàlisi de les regions reguladores dels gens millor predits.
      * Característiques de les proteïnes predites.
      * Conclusions.
      * Referencies i agraïments.
      * Autors.



    * Abstract:
     

    L'objectiu del nostre treball, és analitzar una seqüència anònima del genoma humà. Per fer-ho ens servim de diversos programes computacionals que trobem a internet. Hem començat baixant-nos la seqüència de la base de dades de EMBL. Seguidament vam estudiar les seves característiques, com són la llargada, contingut de C+G i estudi de les regions repetitives. Mitjançant dos programes de predicció de gens vam identificar uns hipotètics gens. Per tal de verificar si aquests eren reals, vam llençar la seqüència contra una base de dades de ESTs humans. Un cop fet això seleccionem els gens que estan suportats per més d'un EST com a existents. Per corroborar l'existència d'aquests gens, vam agafar la seqüència proteica corresponent i les vam llençar contra les bases de dades de les proteïnes. Finalment vam identificar la funció de les proteïnes codificades per la nostra seqüència.
     
     índex
     
    Materials:

        Sistema Operatiu: Linux.
         Pàgina Web: Netscape Composer.

     índex

     

    * Característiques de la nostra seqüència:

    Obtenim la seqüència anònima de DNA a partir de la base de dades NCBI amb el número d'entrada:AC090953.

    Calculem el número de parells de bases i el contingut de G+C utilitzant la seqüència en format FASTA
    Llargada: 189961 pb.
    Contingut de G+C:  a: 0.277473 c: 0.216097 g: 0.216866 t: 0.289565
     índex
    Identificació de les Regions Repetitives:
            Per identificar les regions repetitives de la seqüència s'utilitza el programa  Repeat Masker des del servidor de EMBL:
             EMBL Repeat Masker server.
               A partir del EMBL obtenim :
    - La seqüència enmascarada.
    - Taula de repeticions.
     
     

     índex

    * Predicció de Gens
     

    Aplicació dels programes de predicció de gens:
     
    Per tal de predir els gens de la nostra seqüència hem utilitzat dos programes de predicció. Aquest programes
    són el Geneid i el Genscan.

     Es van guardar les prediccions realitzades per poder visualitzar-les posteriorment. El Geneid ja ens proporciona una sortida gff, mentre que la sortida del Genscan cal convertir-la a arxiu en format gff per la posterior visualització amb el programa gff2ps_v0.98.

    Predicció del Geneid i del Genscan.

     índex

     

    Validació de la Predicció dels Gens:

    Com ja s'ha comentat anteriorment, hem de comprovar la certesa de les prediccions obtingudes pels programes utilitzats. Vam realitzar un seguit de recerques gràcies a les bases de dades ESTs humanes a partir del servidor NCBI blast, utilitzant la funció blastN i escollint només ESTs humans en la opció de tria de la base de dades. En la primera cerca es van obtenir molts ESTs  els quals,  tot i posseir  un alt "score",  només coincidien  en una estreta regió de la seqüència. Es va obtenir un arxiu de sortida que va ser enregistrat com: AC090953.blast.est Per poder visualitzar el resultat  amb el programa gff2ps_v0.98c es va convertir aquest últim arxiu a format gff. Degut a que molts ESTs només soporten un sol exó, seleccionarem aquells que com a mínim coincideixin en dues regions de la seqüència de manera que suportarien la presencia de més d'un exó. Els gens que estan suportats per ESTs i per tant, assumim com a veritables són:

    - Gen 2 d'ambdues prediccions: Suportat per 9 ESTs. Conté 11 exons segons Geneid i 10 segons Genscan.

    - Gen 4 de Geneid i 5 de Genscan: Suportat per 6 ESTs. Conté 4 exons segons Geneid i 6 segons Genscan.

    La resta de gens de la predicció no són suportats i per això suposem que no existeixen.
     


     

    Blast P:

    Seguidament vam realitzar un BlastP al NCBI entre les proteïnes predites pel Geneid i pel Genscan contra tota la base de dades, amb la intenció de confirmar l'exitència d'aquestes proteïnes i veure la seva funció.
    Es va realitzar amb la predicció de proteïna dels gens abans esmentats. Per la resta de gens, els que ja havíem descartat, no fem cap BlastP, no els tenim en compte.

    Es van trobar Blast de gairebé el 100% amb el Gen 2 i amb el Gen 4 (5 de Genscan). Es va obtenir el CDs de la proteïna que presentava més homologia i es va realitzar  un Blast2sequence amb la  seqüència AC090953 emmascarada.

     
    Els Resultats del Blast2sequence van demostrar que el CDs de les proteïnes hibriden amb un 100% d'homologia amb la seqüència fet que va permetre concloure que les 2 proteïnes eren a laseqüència problema AC090953.
     

     

     

     índex

     
    * Anàlisi de les regions reguladores dels gens millor predits.

      El següent pas realitzat fou buscar les possibles regions promotores dels gens predits, dels quals havien trobat una proteïna real.
       Per començar a treballar sobre aquest aspecte vam seleccionar les 200 bases anteriors a l'inici del primer exó de cada gen.
       Proteïna trobada 1 (corresponent al gen2 de geneid i gescan)- Número d'acces en NCBI: AY035399
       Proteïna trobada 2 (corresponent al gen4 de geneid i 5 de genscan)- Número d'accés en NCBI: BC008322
      Gen 2 (proteïna coneguda1): 51272 (primera base del primer exó)
      Gen 4 (proteïna coneguda2): 146992 (primera base del primer exó)
     

    Ulitització del programa MatsInspectorv2.2  que es troba en la base de dades TRANSFAC per trobar regions promotores.
     
    regió promotora proteïna 1.
    regió promotora proteïna 2.

     índex
     

    * Característiques de les proteïnes predites:

     Per tal de trobar totes les característiques de la nostra proteïna, es va fer una recerca a la base de dades de Swissprot/TrEMBL
     

    Proteïna codificada pel gen 2 de geneid i genscan:

    Número d'accés en NCBI: AY035399

     
    Número accés de SwissProt:Q96DJ5

    Nom de la proteïna: UDP-N-ACETYL-ALPHA-D-GALACTOSAMINE:POLYPEPTIDE
                                           N-ACETYLGALACTOSAMINYLTRANSFERASE 7.

    Nom del Gen: GALNT 7

    Dominis: Glycosyl transferase, family2 / Ricin B lectin domain

    Llargada: 639 aa.

    Pes Molecular: 73063 Da.

    Parells de bases: 3357 (mRNA)

    Teixit: Cartílag osteoartrític.

     
    Proteïna codificada pel gen 4 de geneid i 5 de genscan:

    Número d'accés en NCBI: BC008322

     
    Número accés de SwissProt:Q96HP4

    Nom de la proteïna: UNKNOWN ( PROTEIN FOR MGC: 15763 ).

    Nom del Gen: -

    Dominis:Oxidoreductase FAD/NAD(P)-binding

    Llargada:312 aa.

    Pes Molecular: 34854 Da.

    Parells de bases: 1428 (mRNA)
     
     

     índex

     
    * Conclusions

    Un cop realitzats els anàlisis pertinents estem preparats per afirmar que la seqüència AC090953 que es troba en el cromosoma 3 conté 2 gens. Els dos gens predits es troben en sentit forward i corresponen al gen 2 i gen 4 de la predicció del geneid i gen 2 i gen 5 de la predicció del genscan. La resta de les prediccions, gen 1 i 3 (reverse) de geneid i gen 1,3 i 4 (reverse) del genscan van ser descartats ja que no estaven suportats pel ESTs humans.

    El fet que haguem de comparar els programes de predicció de gens amb bases de dades de ESTs és degut a que, tot i que els programes ofereixen una aproximació coherent no permeten extreure conclusions definitives i sempre s'ha de constatar la predicció amb una base més fiable.

    Cal remarcar també que la utilització dels ESTs no dóna una anotació 5'-3' del tot fiable i tampoc si estan anotats en forward o en reverse.

    Al analitzar les regions promotores els resultats no són els esperats. El programa MatInspector, destinat a l'estudi del promotors, ens fa palesa l'absència de caixa promotora TATA, la qual no és present en cap de les dues seqüències dels gens considerats.

    Pel que fa a l'anàlisi amb el BlastP les proteïnes predites es corresponen a la UDP-N-ACETYL-ALPHA-D-GALACTOSAMINE pel que respecte al gen 2 i a una proteïna desconeguda, probablement perquè encara no s'ha seqüenciat, pel que fa referència al gen 4. Per tant, podem dir que la seqüència AC090953 codifica per aquestes dues proteïnes.

    Per últim cal destacar que tot i que nosaltres afirmem l'existència d'aquests dos gens l'única manera d'estar-ne totalment segurs és mitjançant la comprovació experimental.

     índex
     

    * Referències i Agraïments

     Agraïments al Grup de Recerca en Informàtica i Biomèdica de CRG, i en especial a Francisco Camara.

     índex

    * Autors del Treball:
     

      Meritxell Pellicer Roura.  e-mail: meritxell.pellicer01@campus.upf.es Pilar Roger Ventosa. e-mail: pilar.roger01@campus.upf.es

     índex