Les primeres seqüències

Bioinformàtica - 2on trimestre curs 2006/2007 - UPF



l'estructura del DNA

L'any 2003 es complia el 50 anniversari del descobriment per part de James Watson i Francis Crick de l'estructura del DNA.

Aquest descobriment de l'estructura del DNA confirmava la intuició de d'Erwin Schröedinger que l'any 1944 en el seu famòs llibre "What is life" aventurava que la matèria cromosòmica havia de ser "un cristall aperiòdic, constituït per la successió d'un nombre petit d'elements isomèrics", la seqüència concreta dels quals és la responsable de la seva funcionalitat.

Els primers mesos de l'any 1953 foren força agitats; diversos grups competien pel descobriment de l'estructura del DNA. El 31 de desembre del 1952, Linus Pauling i Robert Corey van enviar un manuscript al Proceedings of the National Academy of Sciences on exposaven el seu model de l'estructura del DNA. La carrera semblava guanyada. Pauling, però, escrivia "The structure that we propose is a three-chain structure, each chain being an helix". Watson i Crick van adonar-se de seguida que el model era incorrecte--entre d'altres raons perque era molt semblant a un model que ells havien considerat i abandonat previament--. Rosalin Franklin, que trevalla amb Maurice Milkins va arrivar tambe a la mateixa conclusi\'o. Van ser les difraccions de raigs X de Rosalin que van permetre a Watson i Crick deudir l'estructura correcta del DNA, a principis de Març d'aquell any, poc desprès de la publicació de l'article de Pauling i Corey. L'article de Watson i Crick va ser publicat a Nature l'abril del 1953.

Podeu llegir més sobre aquests esdevenimets a la història de la Biologia Molecular escrita per Horace Freeland Judson, "The eigth day of creation".

la seqüència d'aminoàcids de la insulina bovina

El mateix any, però, es produïa tambè un altre fet important: Frederick Sanger obtenia la seqüència d'aminoàcids de la insulina bovina-la primera -proteïna de la qual es coneixia la seqüència. Sanger obtindria el premi Nobel per aquest descobriment.

MALWTRLRPLLALLALWPPPPARAFVNQHLCGSHL VEALYLVCGERGFFYTPKARREVEGPQVGALELAG GPGAGGLEGPPQKRGIVEQCCASVCSLYQLENYCN

els primers ordinadors

És tambè durant aquests anys (a finals dels quaranta) que apareixen els primers ordinadors. A sota teniu unes fotografies de l'ENIAC (Electronic Numerical Integrator and Computer), desenvolupat conjuntament pel govern dels Estats Units i la Universitat de Pensylvania. L'ordinador tenia 3 metres d'alçada, ocupava 100 metres quadrats, pesava aproximdament 30 tones i utilitzava mes de 70,000 resistorsi 18000 tubs de buit. L'ordinador requeria 150 Kilowatis de potencia per funcionar, suficient per donar llum a una ciutat petita. L'any 1997, un grup d'estudiants de la Universitat de Pennsylvania, per festejar el 50 aniversari de l'ENIAC, van recrear l'ENIAC en un chip de poc de 5.29 mm x 7.44 mm ( ENIAC-on-a-Chip)

Aquest sembla ser el primer ordinador de pròposit general, el predecessor dels ordinadors que utilitzem avui en dia. Per una breu historia de la computació podeu consultar The history of computers

l'avenç de la biologia molecular i la informàtica

1959 determinació de la primera estructura tridimensional d'una proteïna. Es tracta de la mioglobina bovina, determinada mitjançant difracció de raigs X per Max Perutz i John Kendrew.
1957 Invenció dels llenguatges de programació d'alt nivell. Com ara el FORTRAN. Amb aquests llenguatges es possible escriure les instruccions per tal que un ordinador resolgui un determinat problema, sense conèixer com l'ordinador resol realment el problema.
principis dels 60. Desxiframent del codi genetic. Experiments de Korana, Brenner, Ochoa i altres permeten desxifrar el codi mitjançant el qual la seqüència de nucleòtids del DNA especifica la seqüència d'aminoàcids de les proteïnes.
anys 60s. els transistors substituiexen els tubs de buit en els ordinadors. En conseqüència, els ordinadors esdevenen més petits, ràpids i econòmics. Cap a mitjans dels anys 60, la majoria de grans empreses processen la informació financera amb ordinadors digitals

les primeres col.leccions de seqüències

El desenvolupament dels mètodes de seqüènciació de proteïnes a principis dels anys cinquanta va permetre que a mitjans dels anys seixanta fos coneguda la seqüència d'aminoàcids d'alguns centenars de proteïnes. Margaret Dayhoff i els seus col.laboradors a la National Biomedical Research Foundation (NBRF) als Estats Units, van ser els primers en crear col.leccions de les seqüències conegudes de proteïnes. Eren els Atlas of Protein Sequence and Structure. En la seva quarta edició a finals dels seixanta, aquest Atlas contenia vora tres-centes seqüències de proteïnes. Aquestes col.leccions esdevindrien més tard l'embrió de les bases de dades de seqüencies d'aminoàcids (Lliçons 3 i 4). Dayhoff i els seus col.laboradors organitzaren les proteïnes en famílies i superfamílies d'acord amb el grau de semblança que presentaven. Per exemple, a sota tenim l'alineament múltiple de la seqüèn cia del citocrom c en diferents espècies

matrius de substitució

Les figures i dades a continuació estan extretes de l'article "A Model of Evolutionary Change in Proteins" per M.0. Dayhoff, R.M. Schwartz, and B.C. Orcutt. A partir d'aquests alineaments podem comptar quantes vegades observem un canvi d'aminoacid per un altre, canvis que Dayhoff anomenava Accepted Point Mutacions. Aquest nombre es calcula a partir de la construcció d'arbres filogenètics per cada grup de proteïnes.

A continuació tenim la taula de canvis que Dayhoff va obtenir a partir de 71 grups de proteïnes estretament relacionades: dins de cada grup les proteïnes eren idèntiques en almenys el 85% dels residus.

taula obtinguda de Douglas Brutlag Computational Molecular Biology Sequence Alignment que reprodueix els valors en l'article original de Dayhoff (1978).

Aquest taula contè en total 1572 canvis. Donat que aquests canvis ocorren a proteïnes relaciones estretament, corresponen a substitucions d'amionàcids que no canvien essencialment la funció de la proteïna. Es per això que s'anomenen "Accepted Mutations", definides per Dayhoff com aquelles mutacions que són "acceptades" per la selecció natural. En aquesta taula, per exemple, es veu que hi ha 260 canvis entre l'aminoàcid fenilalanina (Phe) i l'aminoàcid tirosina (Tyr). Dayhoff, però, estava interessada en calcular la probabilitat que un aminoàcid mutés en un altre dins un determinat periode evolutiu. A partir d'aquesta taula i de les anomenades mutabilitats relatives de cada aminoàcid (un valor proporcional a la rao del nombre de vegades que observe canvis en un aminoàcid respecte el nombre total d'ocurrències d'aquell aminoàcid),

Dayhoff va calcular la probabilitat de mutació de cada aminoàcid a cada un dels alres 19 aminoàcids, en l'interval evolutiu en el que la probabilitat global de canvi de cada amionàcid era del 1%, i va anomenar la matriu resultant PAM1: Point Accepted Mutation Matrix a la distància evolutiva en la qual un determinat amino te una probabilitat del 1% de mutar.

En aquesta matriu, la probabilitat de Phe de canviar a Tyr es 0.0021, mentre que la probabilitat de Phe de no canviar es 0.9946. La probabilitat de Tyr de canviar a Phe is 0.0028, mentre que la probabilittat d'un residu Tyr de romandre sense canvi és 0.9946. Dayhoff asumia que els canvis en un lloc determinat eren independents dels canvis previs en aquell lloc, i aixi el procès global de canvi d'aminoàcids a les seqüències de proteïnes podia ser descrit com un model de markov. En aquest model de markov, PAM1 és la matriu de transició. D'acord amb aquest model, la matriu PAM1 pot ser multiplicada per ella mateixa N vegades, per tal de donar lloc a matrius de transició corresponent a intervals evolutius cada cop més grans. Així la matriu PAM250 descrius les probabilitats de remplaçament dels aminoàcids quan cada residu ha mutat un promig de dues vegades i mitja (250%).

En aquesta matriu la probabilitat d'un residu alanina de romandre sense canvi és 0.13, mentre que la probabilitat de mutar és 0.87. Malgrat els anys i les poques seqüències a partir de les quals va ser derivada, la matriu PAM250 és una de les matrius més utilitzades encara en la comparació de seqüències (Lliçons 5, 6 i 7).

Normalment, hom calcula la matriu dels anomenats logaritmes de la rao de versemblança. En aquesta matriu, hom divideix les probabilitats observades de substitució d'una aminoàcid per un altre per la probabilitat d'aquest aminoàcid (es a dir, la probabilitat d'aparellar el primer amino acid pel segon a l'atzar) i, desprès, calcula el logaritme d'aquesta raó. A la matriu resultant, hom calcula la mitjana dels valors corresponent als canvis recíprocs.



Roderic Guigó i Serra
2003-01-14