En aquest treball hem buscat les repeticions d'aminoàcids a dos mamífers, el ratolí i l'humà, i a Caenorhabditis Elegans. Hem considerat només aquelles repeticions amb més de cinc aminoàcids iguals i consecutives (repeticions en tàndem). Aquest tipus de repeticions són les anomenades Homopolimèriques i són força abundants entre els eucariotes, normalment com a conseqüència de l'"slippage". En aquest procés, repeticions de trinucleòtids provocarien errors de la polimerasa en la replicació. Aquests errors acabarien produint finalment un augment en el nombre de determinats aminoàcids; les repeticions en baix nombre podrien no ser importants per la funcionalitat final de la proteïna, però en altres casos, depenent dels dominis afectats, es podrien produir proteïnes deficients funcionalment, i per tant en molts casos podrien ser les responsables de determinades malalties.
Hem determinat la posició de cada una de les repeticions dintre de cada proteïna dividint la llargada total de la proteïna en quatre quartils, que ens permetran determinar si es troben al principi (primer quartil), al final (quart quartil) o al mig (segon i tercer quartil). A més també hem determinat la llargada de cada una d'aquestes repeticions. Pel que fa referència a les proteïnes en sí, hem mesurat el nombre de proteïnes amb repeticions a cada organisme del total analitzat. Aquestes dades han estat tractades amb la finalitat de buscar quins són els aminoàcids que més es repeteixen i on queden localitzats dintre de les proteïna, i així intentar treure alguna possible conclusió d'aquests resultats. A més, el fet d'haver comparat dos mamífers, per tant, dos organismes força propers filogenèticament parlant, ens donarà la possibilitat de pensar si aquestes repeticions són pròpies de l'organisme en concret, o bé, venen d'un antecessor comú. A part dels dos mamífers també hem analitzat un nemàtode, per tant, un organisme molt més llunyà als dos anteriors, i que ens ajudarà a acabar de discutir quant d'antigues són aquestes repeticions.
En primer lloc, la primera conclusió que podem extreure d'aquests resultats és que les repeticions homopolimèriques realment són un fet comú als eucariotes, ja que als tres organismes trobem que més del 10% de les proteïnes presenten repeticions (Gràfic 28), i a més podem observar com l'augment o la disminució en el nombre no està relacionat amb el què normalment entendríem com a "complexitat de l'espècie", ja que el ratolí quedaria situat a últim lloc, per sota de C.elegans. Per tant no podríem concloure que les proteïnes en general han anat acumulant repeticions a mesura que l'evolució ha anat avançant. Sí podríem dir que els errors de la polimerasa a la replicació produirien un percentatge d'errors molt similar a tots els eucariotes, ja que nosaltres hem mirat dos mamífers i un nemàtode, per tant grups molt allunyats filogenèticament parlant i els resultats obtinguts han estat molt similars.
En relació al punt anterior, només comparant els dos mamífers, sí que podríem dir que el nombre de repeticions ha augmentat del ratolí a l'humà, si bé l'augment ha estat proporcional a tots els aminoàcids, així, no hi ha hagut un augment només en un o en uns dels quartils o aminoàcids.
Observant els sis primers gràfics podem observar com les repeticions més abundants als mamífers corresponen als mateixos aminoàcids (E, P, A, L i S), i a més presenten la mateixa localitzaciò dintre de la proteïna (Gràfics 22-27), per tant podríem dir que aquestes repeticions no són pròpies de cap dels dos organismes, sinó que van tenir lloc a un avantpassat comú, si haguèssim observat que un dels aminoàcids haguès estès les seves repeticions en un dels dos, concluiríem el contrari. Si bé, quan inclouem en aquesta comparació el C.elegans, observem com aquesta correspondència es trenca i veiem que els aminoàcids amb més repeticions són la Serina, la Prolina, la Treonina, la Glutamina i la Glicina, per tant només es mantenen dos (E i P), que per altra banda són els més abundants, i apareixen tres (T, Q i G), els quals als dos mamífers presenten un nombre molt baix. Per tant, podríem dir que les repeticions d'aquests tres aminoàcids han perdut importància als mamífers, mentres que les Serines i les Prolines s'han mantingut.
L'estudi de les seqüències d'aminoàcids de les proteïnes de vida mitjana curta (t1/2 < 2 hores) indica que pràcticament totes aquestes proteïnes contenen una o més regions riques en Prolina, Glutamat, Serina i Treonina. Amb l'ús de les dessignacions d'una lletra d'aquests aminoàcids (P, E, S i T, respectivament), a aquestes regions, de entre 12 i 60 residus de longitut, se les ha denominat seqüències PEST. Són molt poques les proteïnes de vida mitjana llarga que contenen aquestes regions. Totes i que aquestes probes són en gran part circumstancials i no ens diuen res sobre la funció bioquímica de les seqüències PEST, el patró és el resultat de l'inspecció de dotzenes de seqüències d'aminoàcids. Sembla probable, doncs, que la regió PEST formi part d'un esquema de reconeixement pels sistemes enzimàtics que degraden les proteïnes de vida mitjana curta, que possiblement inclogui el sistema de marcatge de l'Ubiquitina. (Mathews and Van Holde 1998).
Per tant, només mirant el quadre del Gràfic 29, on només estan representades les proteïnes humanes amb més de 25 repeticions (hi ha 27 proteïnes), veiem que 18 entrarien dintre de la descripció de proteïnes de vida mitjana curta segons el raonament del paràgraf anterior, ja que presenten repeticions de més de 25 d'aquests aminoàcids seguits (P, E, S o T).
Seguint el raonament anterior, hi hauria més proteïnes amb aquesta característica dintre de l'humà, ja que les repeticions de llargada 12-25 no les hauríem considerat i també serien d'aquest tipus.
Cal destacar també que, com ja hem comentat anteriorment, la Prolina i el Glutamat que són els dos aminoàcids amb repeticions més abundants als tres organismes, fomen part d'aquestes seqüències susceptibles a degradació.
Com hem comentat anteriorment, als dos mamífers hi ha un evident augment de repeticions d'Alanines a l'extrem N-terminal, i sabem que aquest aminoàcid junt amb la Serina i la Metionina en aquesta situació augmenten la vida mitjana de les proteïnes, per tant podríem dir que aquesta localització podria tenir aquesta funció dintre de les proteïnes.
Un altre punt força relacionat amb les conclusions anteriors és que experiments amb bactèries han revelat que l'hemivida intracel.lular d'una determinada proteïna varia considerablement en funció de la identitat dels seu residu aminoàcid N-terminal. Un residu N-terminal de Phe, Leu, Tyr, Trp, Lys o Arg està correlacionat amb una vida metabòlica curta, mentres que les proteïnes amb altres aminoàcids terminals tenen una vida més perllongada. Aquestes observacions, que es van realitzar inicialment a proteïnes naturals, s'han vist confirmades per experiments en els quals es va alterar l'aminoterminal d'una proteïna mitjançant mutagènesi dirigida, el qual va produir canvis corresponents de les hemivides metabòliques de les proteïnes mutants. Aquestes i altres observacions indiquen que determinades característiques estructurals específiques de les proteïnes inclouen informació sobre l'estabilitat metabòlica de les mateixes. La natura molecular d'aquest processat de la informació i les identitats dels enzims que intervenen en aquest procès no s'han determinat encara, però també inclouen el sistema de la Ubiquitina. (Mathews and Van Holde 1998).
Observant els resultats als tres organismes es veu que al primer quartil, és a dir, a l'extrem N-terminal, que és el què precissament ens interessa ara, estan principalment localitzades les repeticions de Leucines, per tant les proteïnes amb aquestes repeticions tindrien una hemivida intracelular curta. A més veiem que aquest fet es manté als tres mamífers.
Si ens fixem en els Gràfics 7-18 podem veure com el C.elegans presenta molt poques repeticions de més de 14 aminoàcids, i a més podem veure com l'aminoàcid amb repeticions més llargues és la Treonina. Per contra als mamífers la llargada més gran la presenta les repeticions de Glutamina, i a més, presenten un nombre més alt de repeticions d'una llargada superior a 14. En humans, moltes malalties neurològiques estan causades per proteïnes que presenten repeticions alterades precissament d'aquest aminoàcid, per tant, s'hauria de fer un anàlisi més acurat per saber si aquestes repeticions en aquest cas són patològiques o no (Albà, Santibanez-Koref and Hancock 1999). A més, segons la similaritat observada durant tot el treball entre els mamífers, podríem dir que el ratolí seria probablement un bon model per l'estudi d'aquestes malalties.
En quant a la distribució de les repeticions als diferents cromosomes no podem extreure conclusions massa significatives, ja que als dos mamífers observem que tots els cromosomes presenten repeticions, i al C.elegans de fet també, però com que es tracta d'un organisme molt més llunyà no ens serviria per comparar (els cromosomes no coincideixen).
A partir del Gràfic 29 podem comprobar alguns fets que la bibliografia utilitzada ens comunicava, com per exemple seria que la TATA box presenta unes 34 Glutamines seguides en el cas de l'humà (Green and Wang 1994), en el nostre cas observem que la proteïna identificada segons Ensembl com a TATA box presenta 35 Glutamines.
Finalment, l'última conclusió que treiem, és que les dades que es mostren a un dels articles de la bibliografia, Green and Wang 1994, no coincideixen amb les nostres. Observem com els gràfics que mostren el nombre de repeticions segons els intèrvals; 5-9, 10-14, 15-19 i >=20 aminoàcids seguits suggereixen uns resultats molt diferents. Nosaltres pensem que aquestes diferències són degudes especialment a la data en què va ser publicat l'article, ja que l'any 1994 possiblement les seqüències de les proteïnes humanes eren molt diferents; per tant, pensem que les nostres dades serien més encertades que les de l'article perquè es basen en seqüències més recents i per tant, possiblement podríem rebatre els resultats allà mostrats.