Les primeres seqüències
Bioinformàtica - 2on trimestre curs 2006/2007 - UPF
l'estructura del DNA
L'any 2003 es complia el 50 anniversari del descobriment per part de
James Watson i Francis Crick de
l'estructura del DNA.
Aquest descobriment de l'estructura del DNA confirmava la intuició de
d'Erwin Schröedinger que l'any 1944 en el seu famòs llibre "What is
life" aventurava que la matèria cromosòmica havia de ser
"un
cristall aperiòdic, constituït per la successió d'un nombre petit d'elements isomèrics", la seqüència
concreta dels quals és la responsable de la seva funcionalitat.
Els primers mesos de l'any 1953 foren força agitats; diversos grups
competien pel descobriment de l'estructura del DNA. El 31 de desembre
del 1952, Linus Pauling i Robert Corey van enviar un manuscript al Proceedings
of the National Academy of Sciences on exposaven el seu model de
l'estructura del DNA. La carrera semblava
guanyada. Pauling, però, escrivia "The structure that we propose is a
three-chain structure, each chain being an helix". Watson i Crick van
adonar-se de seguida que el model era incorrecte--entre d'altres raons
perque era molt semblant a un model que ells havien considerat i
abandonat previament--. Rosalin Franklin, que trevalla amb
Maurice Milkins va arrivar tambe a la mateixa
conclusi\'o. Van ser les difraccions de raigs X de Rosalin que van
permetre a Watson i Crick deudir l'estructura correcta del
DNA, a principis de Març d'aquell any, poc desprès de la publicació de
l'article de Pauling i Corey. L'article de Watson i Crick va ser
publicat a Nature l'abril del 1953.
Podeu llegir més sobre aquests esdevenimets a la història de la
Biologia Molecular escrita per Horace Freeland Judson, "The eigth day
of creation".
la seqüència d'aminoàcids de la insulina bovina
El mateix any, però, es produïa tambè un altre fet important:
Frederick Sanger
obtenia la seqüència d'aminoàcids de la insulina bovina-la primera
-proteïna de la qual es coneixia la seqüència. Sanger obtindria el
premi Nobel per aquest descobriment.
MALWTRLRPLLALLALWPPPPARAFVNQHLCGSHL
VEALYLVCGERGFFYTPKARREVEGPQVGALELAG
GPGAGGLEGPPQKRGIVEQCCASVCSLYQLENYCN
els primers ordinadors
És tambè durant aquests anys (a finals
dels quaranta) que apareixen els primers ordinadors. A sota teniu
unes fotografies de l'ENIAC (Electronic Numerical Integrator and
Computer), desenvolupat conjuntament pel govern dels Estats Units i la
Universitat de Pensylvania. L'ordinador tenia 3 metres d'alçada, ocupava 100 metres quadrats, pesava aproximdament 30 tones i utilitzava mes de 70,000 resistorsi 18000 tubs de buit. L'ordinador requeria 150 Kilowatis de potencia per funcionar, suficient per donar llum a una ciutat petita. L'any 1997, un grup d'estudiants de la Universitat de Pennsylvania, per festejar el 50 aniversari de l'ENIAC, van recrear l'ENIAC en un chip de poc de 5.29 mm x 7.44 mm
( ENIAC-on-a-Chip)
Aquest sembla ser el primer ordinador de
pròposit general, el predecessor dels ordinadors que utilitzem avui en
dia.
Per una breu historia de la computació podeu consultar
The history of computers
l'avenç de la biologia molecular i la informàtica
1959 determinació de la primera estructura tridimensional d'una
proteïna.
Es tracta de la mioglobina bovina, determinada
mitjançant difracció de raigs X per Max Perutz i John Kendrew.
|
|
|
1957 Invenció dels llenguatges de programació d'alt nivell.
Com ara el
FORTRAN. Amb aquests llenguatges es possible escriure les instruccions
per tal que un ordinador resolgui un determinat problema, sense
conèixer com l'ordinador resol realment el problema.
|
|
|
principis dels 60. Desxiframent del codi genetic.
Experiments de Korana, Brenner, Ochoa i altres permeten desxifrar el
codi mitjançant el qual la seqüència de nucleòtids del DNA especifica
la seqüència d'aminoàcids de les proteïnes.
|
|
anys 60s. els transistors substituiexen els tubs de buit en els ordinadors.
En conseqüència, els ordinadors esdevenen més petits, ràpids i econòmics. Cap a mitjans dels anys 60, la majoria de grans empreses processen la informació financera amb ordinadors digitals
|
|
|
les primeres col.leccions de seqüències
El desenvolupament dels mètodes de seqüènciació de proteïnes a
principis dels anys cinquanta va permetre que a mitjans dels anys
seixanta fos coneguda la seqüència d'aminoàcids d'alguns centenars de
proteïnes. Margaret Dayhoff i els seus col.laboradors a la National
Biomedical Research Foundation (NBRF) als Estats Units, van ser els
primers en crear col.leccions de les seqüències conegudes de
proteïnes. Eren els Atlas of Protein Sequence and
Structure. En la seva quarta edició a finals dels seixanta, aquest
Atlas contenia vora tres-centes seqüències de
proteïnes. Aquestes col.leccions esdevindrien més tard l'embrió de les
bases de dades de seqüencies d'aminoàcids (Lliçons 3 i 4).
Dayhoff i els seus col.laboradors organitzaren les proteïnes en
famílies i superfamílies d'acord amb el grau de semblança que
presentaven. Per exemple, a sota tenim l'alineament múltiple de
la seqüèn cia del citocrom c en diferents espècies
matrius de substitució
Les figures i dades a continuació estan extretes de
l'article "A Model of
Evolutionary Change in Proteins" per M.0. Dayhoff, R.M. Schwartz,
and B.C. Orcutt.
A partir d'aquests alineaments podem comptar quantes vegades observem
un canvi d'aminoacid per un altre, canvis que Dayhoff anomenava
Accepted Point Mutacions. Aquest nombre es calcula a partir
de la construcció d'arbres filogenètics per cada grup de proteïnes.
A continuació tenim la taula de
canvis que Dayhoff va obtenir a partir de 71
grups de proteïnes estretament relacionades: dins de cada grup les
proteïnes eren idèntiques en almenys el 85% dels residus.
taula obtinguda de Douglas Brutlag Computational Molecular Biology
Sequence Alignment que reprodueix els valors en l'article original
de Dayhoff (1978).
Aquest taula contè en total 1572 canvis. Donat que aquests canvis
ocorren a proteïnes relaciones estretament, corresponen a
substitucions d'amionàcids que no canvien essencialment la funció de
la proteïna. Es per això que s'anomenen "Accepted Mutations",
definides per Dayhoff com aquelles mutacions que són "acceptades" per la
selecció natural. En aquesta taula, per exemple, es veu que hi ha 260
canvis entre l'aminoàcid fenilalanina (Phe) i l'aminoàcid tirosina
(Tyr). Dayhoff, però, estava interessada en calcular la probabilitat
que un aminoàcid mutés en un altre dins un determinat periode
evolutiu. A partir d'aquesta taula i de les anomenades
mutabilitats relatives de cada aminoàcid (un valor proporcional a la rao del nombre de vegades que observe canvis en
un aminoàcid respecte el nombre total d'ocurrències d'aquell aminoàcid),
Dayhoff va calcular la probabilitat de mutació de cada aminoàcid a
cada un dels alres 19 aminoàcids, en l'interval evolutiu en el que la
probabilitat global de canvi de cada amionàcid era del 1%, i va
anomenar la matriu resultant PAM1: Point Accepted Mutation Matrix a la
distància evolutiva en la qual un determinat amino te una probabilitat
del 1% de mutar.
En aquesta matriu, la probabilitat de Phe de canviar
a Tyr es 0.0021, mentre que la probabilitat de Phe de no canviar es
0.9946. La probabilitat de Tyr de canviar a Phe is 0.0028, mentre que la probabilittat d'un residu Tyr de romandre sense canvi és 0.9946.
Dayhoff asumia que els canvis en un lloc determinat eren independents
dels canvis previs en aquell lloc, i aixi el procès global de canvi
d'aminoàcids a les seqüències de proteïnes podia ser descrit com un
model de markov. En aquest model de markov, PAM1 és la
matriu de transició. D'acord amb aquest model, la matriu PAM1 pot ser
multiplicada per ella mateixa N vegades, per tal de donar lloc a
matrius de transició corresponent a intervals evolutius cada cop més
grans. Així la matriu PAM250 descrius les probabilitats de
remplaçament dels aminoàcids quan cada residu ha mutat un promig de
dues vegades i mitja (250%).
En aquesta matriu la probabilitat d'un residu alanina de romandre
sense canvi és 0.13, mentre que la probabilitat de mutar és 0.87.
Malgrat els anys i les poques seqüències a partir de les quals va ser
derivada, la
matriu PAM250 és una de les matrius més utilitzades encara en la
comparació de seqüències (Lliçons 5, 6 i 7).
Normalment, hom calcula la matriu dels anomenats
logaritmes de la rao de versemblança. En aquesta matriu, hom
divideix les probabilitats observades de substitució d'una aminoàcid
per un altre per la probabilitat d'aquest aminoàcid (es a dir, la probabilitat d'aparellar el primer amino acid pel segon a l'atzar) i, desprès,
calcula el logaritme d'aquesta raó. A la matriu resultant, hom calcula
la mitjana dels valors corresponent als canvis recíprocs.
Roderic Guigó i Serra
2003-01-14