Malgrat
existeix un gran nombre de
molècules diferents, la gran majoria es poden agrupar en un
conjunt limitat de famílies, basant-se en la similaritat de les
seves seqüències. En el cas de les famílies
de proteïnes, s'observen algunes regions que s'han conservat
més que altres al llarg de l'evolució. Aquestes solen ser
importants per la funció de la proteïna o pel manteniment
de la seva estructura tridimensional. D'altra banda, elements
reguladors conservats del DNA desenvolupen funcions indispensables per
la vida com per exemple el reconeixement de factors de
transcripció o senyals d'splicing.
Analitzant les propietats
variables i constants de les seqüències (tant
d'aminoàcids com de nucleòtids), podem derivar una marca
que distingueixi als seus membres de la resta.
Què és un motiu conservat?
Mitjançant un alineament
múltiple de seqüències que pertanyen a la mateixa
família és possible trobar un motiu consens. El
motiu sol ser una seqüència curta expressada de manera que
quedin representades totes les possibilitats de seqüències
observades d'aquest motiu. Per exemple, el motiu
[ASV]-S-C-[NT]-T-x(2)-[LIM] representa 7200 seqüències
diferents d'aminoàcids. Si una d'aquestes és una
subseqüència d'una proteïna no caracteritzada, la nova
proteïna farà match
amb el motiu i deduirem que la
subseqüència té la funció prèviament
descrita (en aquest cas probablement seria un "lloc actiu
gliceraldehid 3-fosfat dehidrogenasa"). És a dir, la
identificació de motius conservats ens permet assignar una
funció a una proteïna o regió del DNA abans
desconeguda.
Bases de dades
Gràcies a la
investigació en aquest camp, s'han pogut
determinar un gran nombre de motius conservats que es poden consultar
en múltiples bases de dades com PROSITE i TRANSFAC.
PROSITE
recull al voltant de 1400 motius
proteics i permet escanejar una seqüència per tal de trobar
algun motiu conegut.
TRANSFAC
és una base de dades de factors de
transcipció eucariotes i els seus llocs d'unió al genoma.
Representació dels motius: domini Zinc-finger
Per tal d'entendre millor en
què es basa la identifació
de motius conservats, exemplificarem el cas
del domini Zinc-finger. Aquest domini és una estructura
proteica d'unió als àcids nucleics inicialment
identificada al factor de transcripció TFIIIA de Xenopus i
posteriorment, trobat en múltiples proteïnes d'unió
a DNA o RNA. Es composa de 25-30 residus aminoacídics amb dos
residus de cisteïna o histidina en ambdós extrems del
domini
involucrats en la unió tetrahèdrica d'un àtom de
zinc. Es postula que interacciona amb aproximadament cinc
nucleòtids. A partir de l'alineament múltiple de
seqüències amb aquest motiu s'extrau la següent
expressió
regular: C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3-5)-H que s'interpretaria
com dues C separades per 2, 3 o 4 aminoàcids
qualssevol, seguides de L, I, V, M, F, Y, W o C, i separades de dues
H per 8 aminoàcids. Si tenim una proteïna amb funció
desconeguda que sospitem s'uneix al DNA, intentarem trobar
coincidències d'aquest motiu o altres per tal d'esbrinar-la.
Representació de l'expressió regular |
Estructura d'una regió amb domini Zinc-finger |
ER (receptor d'estrògens) unint-se al DNA mitjançant
un dímer amb un total de 4 motius Zinc-finger (boles taronja)
|