Anàlisi de genomes

Bioinformàtica - 2on trimestre curs 2001/2002 - UPF





Seqüenciació de genomes
 

Número de genomes seqüenciats fins al moment:

57 bacteries
12 arqueobacteries
6 eucariotes (llevat, Drosophila, C.elegans, Fugu, Arabidopsis thaliana, humans)
705 virus

I molts més en procés de seqüenciació, per exemple només en mamífers s'están seqüenciant ratolí, ximpanzé, porc, vaca, ovella, gos, rata..

Totes aquestes seqüències aporten una gran quantitat d'informació per poder entendre millor el funcionament dels sistemes biològics i la seva evolució. La feina per les proximes dècades es desxifrar-la..
 


Projecte genoma humà

Nature, Vol. 409, 15 Febrer 2001.  -> projecte públic Consorci
Science, Vol. 291, 16 Febrer 2001. -> projecte privat Celera

Com es va seqüenciar el genoma (projecte públic)?

- La feina es va distribuir en uns 20 laboratoris diferents

- Es va seguir una estrategia de mapatge jeràrquic:

1 - mapatge de clons: es van agafar llibreries de clons del genoma humà, tipicament en vectors BACs (bacterial artificial chromosomes, que porten unes 150 Kb de seqüència), i es va fer un mapatge de la seva localització relativa mitjançant digestió amb enzims de restricció (fingerprinting).
 

- els clons BAC provenien d'una digestió parcial i estaven solapats entre ells
- digestió total de cada BAC i comparació del patró de digestió per determinar el seu ordre relatiu
- selecció de conjunts de BACs, que representessin regions seguides en el genoma (contig), a utilitzar en la fase de sequenciació
- localització del contigs en el genoma mitjançant marcadors del tipus STS (sequence tagged site), ja previament mapats en el genoma humà
2- seqüenciació: els clons BAC de cada contig es van tallar en trossos més petits i es van clonar i sequenciar, de manera que es cobrís tot el BAC sencer varies vegades.
 

Característiques del genoma humà

La primera seqüència, publicada a principis del 2001, cobria un 90% de l'eucromatina. En aquest moment es cobreix ja el 97%. Queden però encara molts gaps.

1. Contingut del genoma:

Té una llargada d'aproximadament 3,2 Gb (3.200 milions de bases), unes 25 vegades més gran que Drosophila o Arabidopsis. El número de gens es nomes d'aproximadament el doble que a Drosophila i poc més que a Arabidopsis, així que en el genoma humà hi molta més zona no codificant. Només un 1,2-1,4% codifica per proteïna (exons) i aprox. un 25-35% correspondria a gens.
 
 


                                                                                 Nature, Vol. 409, 15 Febrer 2001.


Una mica més de la mitad el genoma humà correspón a seqüències repetitives:
 

45% elements parasítics: LINE (long interspersed elements), SINE (short interspersed elements), retrotransposons, transposons de DNA
3% repeticions curtes (microsatèl.lits)
5% repeticions de llargs segments de DNA

elements parasítics del genoma


Aquests elements es van identificar amb el programa RepeatMasker.

Aquests elements són capaços de moure's pel genoma, encara que en el cas humà sembla que están practicament inactius.

El número de proteïnes es va estimar en unes 30.000 (projecte públic):
 

-    10.000 de la llibreria RefSeq derivada de clons de cDNA
-    el reste es va derivar de programes d'identificació de gens, incloent l'ús d'homologia amb proteïnes d'altres organismes, ús de ESTs i predicció de novo per característiques de seqüència.
2. Característiques dels gens humans:

L'splicing alternatiu es més frequent que en Drosophila o C.elegans, s'ha estimat que al menys el 60% dels gens tindrien varies formes d'splicing.

Els introns són més llargs, el que dificulta la predicció de gens. Els exons només representarien un 5% del transcrit.
 
 

Size distributions of exons, introns and short introns, in sequenced genomes. a, Exons;
b, introns; c, short introns (enlarged from b). Confirmed exons and introns for the human were
taken from RefSeq alignments and for worm and fly from Acembly alignments of ESTs (J. and
D. Thierry-Mieg and, for worm, Y. Kohara, unpublished).



El contingut en GC es correlaciona amb regions que contenen una alta freqüència de gens. També la presència d'elements Alu (un tipus de SINE) es correspón a regions amb més gens.

Es calcula que hi ha un SNP entre dues seqüències donades cada 1-2 Kb.

En general s'observen més mòduls o dominis proteics, en diferents combinacions, en les proteïnes humanes respecte a C.elegans o Drosophila. Tambe existeixen més proteïnes relacionades amb el citoesquelet, sistema inmunitari, transcripció, traducció i receptors transmembrana.

Quan es va sequenciar un 75 % dels productes del genoma humà va mostrar homologia amb altres proteïnes de les bases de dades (nr). En relació a altres genomes complerts es va trobar similaritat amb el 46% de les proteïnes de llevat, el 43% de les proteïnes de C. elegans i el 61% de les de Drosophila.
 
 

A partir dels hits de proteines humanes a "nr" utilitzant BLAST







Predicció de funció mitjançant genòmica comparativa

El fet de tenir genomes complets ens permet investigar aspectes diferencials de l'organització genòmica i predir funcions de les proteïnes així com identificar possibles senyals reguladores. La predicció de funció es pot fer segons dos criteris:

    1- conservació evolutiva de la seqüència:

        - detecció de similaritat significativa entre proteïnes de diferents organismes:

              * Ens permetrà assignar una funció putativa a noves proteïnes.

*  Existeixen bases de dades de seqüències homòlogues, per exemple "clusters of orthologous groups" (COGS) o "human-mouse homology map" (zones de sintenia entre els dos genomes).
 - descobriment de patrons en el DNA que per exemple corresponguin a zones reguladores de l'expressió gènica que s'han conservat en els promotors de gens ortòlegs.
    2- relacions funcionals entre proteines per "contexte" genòmic:
 

      2.1. per fusió genica (mètode de Rosetta stone)

Dues proteïnes que el seu homòleg en un altre genoma es part d'una fusió gènica de les dues.

- Marcotte et al. (1999) descobreixen 45.502 possibles relacions funcionals d'aquest tipus en llevat, comparant amb 20 altres genomes complerts.


    2.2. per proximitat en el genoma
 

    Proteïnes que són codificades per gens que mantenen proximitat en varis genomes.
- Huynen et al. (2000) detecten 178 gens relacionats d'aquesta manera en Micoplasma genitalium (37% dels gens) comparant M. genitalium amb 24 altres genomes.


    2.3. per perfil filogenètic

     Proteïnes que comparteixen el mateix patró de presència/absència en diferents genomes.

    - Marcotte et al. (1999) descobreixen 20.749 possibles relacions funcionals d'aquest tipus en llevat.
 
 


Marcotte et al., 1999




El tipus de funció que es prediu per contexte genòmic és mes general que per similaritat de seqüència. Fa referència a proteïnes que participen en el mateix procés o ruta metabòlica, i que potser interaccionen directament entre elles. Aquests mètodes poden servir per identificar la funció de gens que no tenen homologia amb res pero la tassa de falsos positius és relativament alta (per exemple en Marcotte et al. 1999 s'estima que 36% per fusió gènica i 29.5% per perfil filogenètic) o sigui que s'han de prendre només com indicatius de possible relació funcional.


Referències

Nature, Vol. 409, 15 Febrer 2001.  -> projecte públic Consorci
Science, Vol. 291, 16 Febrer 2001. -> projecte privat Celera
Wright et al. A draft annotation and overview of the human genome. GenomeBiology 2001/2/7/research/0025.1
Huynen et al. (2000). Predicting protein funcion by genomic context: quantitative evaluation and qualitative inferences. Genome Research 10: 1204-1210.
Marcotte et al. (1999). A combined algorithm for genome-wide prediction of protein function. Nature 402: 83-90.
 

Enllaços d'interés
 

GOLD (seguiment projectes seqüenciació genomes)
Institute of Genome Research
Human-Mouse Homology Map
Clusters of Orthologous Groups (COGs)
Ensembl
University of California Santa Cruz
NCBI genomes


Mar Albà, Febrer 2002.