Bioinformàtica - 2on trimestre curs 2001/2002 - UPF
Seqüenciació de genomes
Número de genomes seqüenciats fins al moment:
57 bacteries
12 arqueobacteries
6 eucariotes (llevat, Drosophila, C.elegans, Fugu, Arabidopsis
thaliana, humans)
705 virus
I molts més en procés de seqüenciació, per exemple només en mamífers s'están seqüenciant ratolí, ximpanzé, porc, vaca, ovella, gos, rata..
Totes aquestes seqüències aporten una gran
quantitat d'informació per poder entendre millor el funcionament
dels sistemes biològics i la seva evolució. La feina per
les proximes dècades es desxifrar-la..
Projecte genoma humà
Nature, Vol. 409, 15 Febrer 2001. -> projecte públic
Consorci
Science, Vol. 291, 16 Febrer 2001. -> projecte privat
Celera
Com es va seqüenciar el genoma (projecte públic)?
- La feina es va distribuir en uns 20 laboratoris diferents
- Es va seguir una estrategia de mapatge jeràrquic:
1 - mapatge de clons: es van agafar llibreries de clons
del genoma humà, tipicament en vectors BACs (bacterial artificial
chromosomes, que porten unes 150 Kb de seqüència), i es va
fer un mapatge de la seva localització relativa mitjançant
digestió amb enzims de restricció (fingerprinting).
- els clons BAC provenien d'una digestió parcial i estaven solapats entre ells2- seqüenciació: els clons BAC de cada contig es van tallar en trossos més petits i es van clonar i sequenciar, de manera que es cobrís tot el BAC sencer varies vegades.
- digestió total de cada BAC i comparació del patró de digestió per determinar el seu ordre relatiu
- selecció de conjunts de BACs, que representessin regions seguides en el genoma (contig), a utilitzar en la fase de sequenciació
- localització del contigs en el genoma mitjançant marcadors del tipus STS (sequence tagged site), ja previament mapats en el genoma humà
Característiques del genoma humà
La primera seqüència, publicada a principis del 2001, cobria un 90% de l'eucromatina. En aquest moment es cobreix ja el 97%. Queden però encara molts gaps.
1. Contingut del genoma:
Té una llargada d'aproximadament 3,2 Gb (3.200
milions de bases), unes 25 vegades més gran que Drosophila o Arabidopsis.
El número de gens es nomes d'aproximadament el doble que a Drosophila
i poc més que a Arabidopsis, així que en el genoma humà
hi molta més zona no codificant. Només un 1,2-1,4% codifica
per proteïna (exons) i aprox. un 25-35% correspondria a gens.
Nature, Vol. 409, 15 Febrer 2001.
Una mica més de la mitad el genoma humà
correspón a seqüències repetitives:
45% elements parasítics: LINE (long interspersed elements), SINE (short interspersed elements), retrotransposons, transposons de DNA
3% repeticions curtes (microsatèl.lits)
5% repeticions de llargs segments de DNAelements parasítics del genoma
Aquests elements es van identificar amb el programa
RepeatMasker.
Aquests elements són capaços de moure's pel genoma, encara que en el cas humà sembla que están practicament inactius.
El número de proteïnes es va estimar en unes
30.000 (projecte públic):
- 10.000 de la llibreria RefSeq derivada de clons de cDNA2. Característiques dels gens humans:
- el reste es va derivar de programes d'identificació de gens, incloent l'ús d'homologia amb proteïnes d'altres organismes, ús de ESTs i predicció de novo per característiques de seqüència.
L'splicing alternatiu es més frequent que en Drosophila o C.elegans, s'ha estimat que al menys el 60% dels gens tindrien varies formes d'splicing.
Els introns són més llargs, el que dificulta
la predicció de gens. Els exons només representarien un 5%
del transcrit.
Size distributions of exons, introns and short introns, in sequenced
genomes. a, Exons;
b, introns; c, short introns (enlarged from b). Confirmed exons and
introns for the human were
taken from RefSeq alignments and for worm and fly from Acembly alignments
of ESTs (J. and
D. Thierry-Mieg and, for worm, Y. Kohara, unpublished).
El contingut en GC es correlaciona amb regions que contenen una alta freqüència de gens. També la presència d'elements Alu (un tipus de SINE) es correspón a regions amb més gens.
Es calcula que hi ha un SNP entre dues seqüències donades cada 1-2 Kb.
En general s'observen més mòduls o dominis proteics, en diferents combinacions, en les proteïnes humanes respecte a C.elegans o Drosophila. Tambe existeixen més proteïnes relacionades amb el citoesquelet, sistema inmunitari, transcripció, traducció i receptors transmembrana.
Quan es va sequenciar un 75 % dels productes del genoma
humà va mostrar homologia amb altres proteïnes de les bases
de dades (nr). En relació a altres genomes complerts es va trobar
similaritat amb el 46% de les proteïnes de llevat, el 43% de les proteïnes
de C. elegans i el 61% de les de Drosophila.
A partir dels hits de proteines humanes a "nr" utilitzant
BLAST
Predicció de funció mitjançant genòmica comparativa
El fet de tenir genomes complets ens permet investigar aspectes diferencials de l'organització genòmica i predir funcions de les proteïnes així com identificar possibles senyals reguladores. La predicció de funció es pot fer segons dos criteris:
1- conservació evolutiva de la seqüència:
- detecció de similaritat significativa entre proteïnes de diferents organismes:
* Ens permetrà assignar una funció putativa a noves proteïnes.
2- relacions funcionals entre proteines per "contexte" genòmic:* Existeixen bases de dades de seqüències homòlogues, per exemple "clusters of orthologous groups" (COGS) o "human-mouse homology map" (zones de sintenia entre els dos genomes).- descobriment de patrons en el DNA que per exemple corresponguin a zones reguladores de l'expressió gènica que s'han conservat en els promotors de gens ortòlegs.
2.1. per fusió genica (mètode de Rosetta stone)
Dues proteïnes que el seu homòleg en un altre genoma es part d'una fusió gènica de les dues.- Marcotte et al. (1999) descobreixen 45.502 possibles relacions funcionals d'aquest tipus en llevat, comparant amb 20 altres genomes complerts.
2.2. per proximitat en el genoma
Proteïnes que són codificades per gens que mantenen proximitat en varis genomes.
- Huynen et al. (2000) detecten 178 gens relacionats d'aquesta manera en Micoplasma genitalium (37% dels gens) comparant M. genitalium amb 24 altres genomes.
2.3. per perfil filogenètic
Proteïnes que comparteixen el mateix patró de presència/absència en diferents genomes.
- Marcotte et al. (1999) descobreixen
20.749 possibles relacions funcionals d'aquest tipus en llevat.
Marcotte et al., 1999
El tipus de funció que es prediu per contexte genòmic és mes general que per similaritat de seqüència. Fa referència a proteïnes que participen en el mateix procés o ruta metabòlica, i que potser interaccionen directament entre elles. Aquests mètodes poden servir per identificar la funció de gens que no tenen homologia amb res pero la tassa de falsos positius és relativament alta (per exemple en Marcotte et al. 1999 s'estima que 36% per fusió gènica i 29.5% per perfil filogenètic) o sigui que s'han de prendre només com indicatius de possible relació funcional.
Referències
Nature, Vol. 409, 15 Febrer 2001. -> projecte públic
Consorci
Science, Vol. 291, 16 Febrer 2001. -> projecte privat
Celera
Wright et al. A
draft annotation and overview of the human genome. GenomeBiology 2001/2/7/research/0025.1
Huynen et al. (2000). Predicting protein funcion by genomic
context: quantitative evaluation and qualitative inferences. Genome Research
10: 1204-1210.
Marcotte et al. (1999). A combined algorithm for genome-wide
prediction of protein function. Nature 402: 83-90.
Enllaços d'interés
GOLD
(seguiment projectes seqüenciació genomes)
Institute of Genome Research
Human-Mouse
Homology Map
Clusters of
Orthologous Groups (COGs)
Ensembl
University of California
Santa Cruz
NCBI
genomes
Mar Albà, Febrer 2002.