Identificación de repeticiones de aminoácidos en proteínas

por Mar Álvarez Pedrerol y Margarita Muiños Gimeno

ÍNDICE

Introducción
Material y métodos
Resultados y discusión
Conlusiones
Referencias

Frecuentemente en las proteínas de eucariotas encontramos repeticiones de aminoácidos en tándem, son las zonas llamadas homopoliméricas. Uno de los mecanismos que puede explicar la abundancia de estas regiones repetitivas es el llamado slippage (1) , sin embargo, también se podrían haber producido por acumulación de mutaciones puntuales (2) .

El proyecto consiste en hacer una compilación de todas las regiones de aminoácidos de longitud 5 o más, en varios genomas, y estudiar varias características. Los objetivos serán determinar qué aminoácidos tienen más tendencia a encontrarse repetidos, analizar qué longitudes tienen los homopolímeros de diferentes aminoácidos y ver si hay preferencias en su localización relativa dentro de las secuencias de proteínas. (1)

MATERIAL Y MÉTODOS

Antes de nada hicimos un programa en perl para extraer todos los datos que necesitábamos. Dado un fichero con todo el proteoma de una especie en formato FASTA bajado desde Ensembl, el programa:

Analiza secuencia por secuencia ( sabe donde empieza y acaba cada secuencia, ya que en formato FASTA cada secuencia empieza con el símbolo >)

Identifica cualquier repetición de 5 o más aminoácidos.

Guarda el aminoácido del que se trata.

Guarda la longitud de la repetición.

Guarda la posición en la proteína donde empieza la repetición.

Determina la posición relativa de la repetición en cuartiles (1º, 2º-3º y 4º).

Cuenta el número total de proteínas analizadas.

Clica aquí para ver el programa.

Los resultados del programa aparecen en un fichero de salida ( outfile) llamado resultados.txt.

Ejemplo:

>ENSP00000000412 Gene:ENSG00000003056 Clone:AC006581 Contig:AC006581.16.1.172931 Chr:12 Basepair:8801021 Status:known L 6 11 277 1
>ENSP00000001178 Gene:ENSG00000004487 Clone:AL031428 Contig:AL031428.9.1.100951 Chr:1 Basepair:22916064 Status:known A 12 40 950 1
>ENSP00000001178 Gene:ENSG00000004487 Clone:AL031428 Contig:AL031428.9.1.100951 Chr:1 Basepair:22916064 Status:known P 5 185 950 1
>ENSP00000002165 Gene:ENSG00000001036 Clone:AL031320 Contig:AL031320.6.1.133574 Chr:6 Basepair:143439781 Status:known L 9 12 467 1
>ENSP00000004980 Gene:ENSG00000079387 Clone:AC004801 Contig:AC004801.1.1.193561 Chr:12 Basepair:48451793 Status:known S 5 102 643 1
>ENSP00000005011 Gene:ENSG00000004948 Clone:AC003078 Contig:AC003078.1.1.182433 Chr:7 Basepair:91589227 Status:known A 6 427 474 4
>ENSP00000005286 Gene:ENSG00000006118 Clone:AC004126 Contig:AC004126.1.1.136328 Chr:11 Basepair:63084863 Status:known E 9 577 774 2 y 3
>ENSP00000005340 Gene:ENSG00000004975 Clone:AC026954 Contig:AC026954.11.19017.39923 Chr:17 Basepair:7526566 Status:known P 6 685 736 4

En este fichero sólo aparecen las secuencias que tienen repetición (el mismo aminoácido repetido 5 o más veces). En el caso de que una proteína tenga dos repeticiones, saldrá dos veces junto con su identificador (mirar ejemplo casos 2 y 3). Cada secuencia aparece en una línea, y cada columna está separada por un espacio.

1ª columna: identificador de la proteína en ensembl.

2ª columna: identificador del gen que codifica para la proteína en ensembl.

5ª columna: cromosoma en el que se encuentra el gen.

8ª columna: aminoácido que se repite.

9ª columna: longitud de la repetición (número de veces que se repite el aminoácido).

10ª columna: inicio de la repetición.

11ª columna: longitud de la secuencia.

12ª columna: cuartil en el que se encuentra la repetición.

1: primer 25% de la proteína (extremo N-terminal)

2 y 3: centro de la proteína.

4: último 25% de la proteína (extremo C-terminal).

Nosotras analizamos concretamente los proteomas de Homo sapiens, Mus musculus (ratón), Fugu rubripes (un pez) y Drosophila melanogaster .

A partir de los resultados obtenidos, y usando las órdenes de egrep (principalmente cut, paste, uniq, sort y redireccionamiento), obtuvimos datos útiles para hacer luego gráficos en Excel.

Clica aquí para volver al índice

RESULTADOS Y DISCUSIÓN

Proporción de repeticiones en los proteomas de los organismos estudiados

Obtención de los datos para realizar la gráfica (egrep):

$ wc resultados.txt ===> nos da el número de líneas que contiene el fichero resultados.txt, es decir, el número de repeticiones que tiene el proteoma analizado.

El número de proteínas analizadas lo obtenemos a partir de un contador del programa que realizamos.

Fig.1

Observaciones:

Como vemos en la gráfica no existe relación entre el número de proteínas de una especie y el número de repeticiones que hay en el proteoma. Así, por ejemplo, tenemos como casos extremos y opuestos el de Drosophila melanogaster y Fugu rubripes: Drosophila melanogaster es la especie con el menor nº de proteínas de las especies analizadas y el mayor nº de repeticiones (en valor absoluto), y Fugu rubripes es la especie con el mayor nº de genes y el menor nº de repeticiones. Entre Homo sapiens y Mus musculus, dos especies evolutivamente cercanas, observamos cierta diferencia. Resulta curioso ver que en Homo sapiens aún y teniendo un número de proteínas comparable al de Mus musculus (Mus musuclus tiene únicamente 369 proteínas más que el hombre) tiene un mayor número de repeticiones (1592 más).

El hecho de que las repeticiones aminoacídicas sean más abundantes en la mosca podría ser debido a diferencias innatas en: procesos de replicación del DNA, mecanismos de reparación, sistemas de modificación del DNA y sesgos mutacionales(4). Esto además, para que fuera sometido a una selección positiva tendría que tener alguna función biológica. De hecho, se sabe que en Drosophila melanogaster, más del 80% de las proteínas que contienen repeticiones son esenciales en su desarrollo, como reguladores de la transcripción.(4) Muchas de estas proteínas tienen homólogos en humano y en ratón.(3)

Clica aquí para volver al índice

Análisis de la aglomeración de las repeticiones en las proteínas.

Una vez obtenidos los resultados de la gráfica anterior, se nos planteó la duda de si el aumento de las repeticiones de un genoma respecto de los otros, se debía a que había más proteínas con repetición o más repeticiones por proteína. Por eso, calculamos el número de proteínas que tenían una o más repeticiones y lo comparamos con el número de repeticiones totales (respecto al número de proteínas del proteoma).Es decir, por un lado hicimos nº de proteínas con repetición entre nº de proteínas totales y, por otro lado, nº de repeticiones entre nº de proteínas totales.

Obtención de los datos para realizar la gráfica (egrep):

$ cut -d ' ' -f 1 resultados.txt > identificador.txt ===> obtenemos la columna que tiene el identificador de la proteína.

$ uniq -c identificador.txt > identificadoruniq.txt ===> juntamos las líneas iguales (proteínas que tienen más de una repetición). En este caso no hacía falta hacer un sort antes de hacer el uniq, dado que las proteínas que tenían más de una repetición (con el mismo identificador), ya saldrían juntas.

$ wc identificadoruniq.txt ===> contamos el número de líneas que tiene el nuevo archivo (será el número de proteínas que tienen al menos una repetición).

Fig.2

Observaciones:

Cuanta más diferencia exista entre las dos barras, más proteínas habrá con más de una repetición. En Drosophila melanogaster, por ejemplo, vemos una gran diferencia, por tanto podemos afirmar que en su proteoma, las repeticiones tienden a aglomerarse, mientras que en Fugu rubripes la mayoría de repeticiones son únicas en la proteína. La diferencia entre humano y ratón no es significativa, sólo podemos volver a decir que en humano hay más repeticiones que en ratón.

Clica aquí para volver al índice

Número de repeticiones por aminoácido

Aquí analizamos cuáles eran los aminoácidos que más se repetían por especie.

Obtención de los datos para realizar la gráfica (egrep):

$ cut -d ' ' -f 8 resultados.txt > aa.txt ===> tendremos un archivo con únicamente la columna con el aminoácido que se repite.

$ sort aa.txt | uniq -c > aauniq.txt ===> ordenamos alfabéticamente los aminoácidos y juntamos los que son iguales, así nos da el número de veces que aparece cada aminoácido.

Fugu rubripes: Los aminoácidos que más se repiten son serina, prolina y glicina. Casi no se repiten o no se repiten la cisteína, la fenilalanina, la isoleucina, la metionina, la asparagina, el triptófano y la tirosina. Fig.5

Drosophila melanogaster: El aminoácido que más se repite con diferencia es la glutamina (el 30% de la repeticiones son de poliglutaminas). También se repiten mucho la alanina y la serina. Casi no se repiten o no se repiten la cisteína, la fenilalanina, la isoleucina, la metionina, el triptófano y la tirosina.Fig.6

Humano: Los que más se repiten son ácido glutámico, prolina, alanina, serina, leucina y glicina. Los que menos se repiten son triptófano, tirosina, asparagina, metionina, isoleucina, fenilalanina y cisteína.Fig.3

Ratón: Los que más se repiten son ácido glutámico, prolina, alanina, serina, leucina y glicina. Los que menos se repiten son triptófano, tirosina, asparagina, metionina, isoleucina, fenilalanina y cisteína.Fig.4

Observaciones:

Los aminoácidos que menos se repiten coinciden en las cuatro especies, excepto la asparagina que aparece bastantes veces repetida en Drosophila melanogasterFig.6. Estos resultados contradicen en algunos aspectos un artículo escrito en 1994 (3) en el cual se dice que no aparecen repeticiones de Lisina, y además no incluye como repeticiones raras las de fenilalanina y asparagina, pero debemos considerar que en 1994 aún no se habían secuenciado muchas proteínas y los autores realizaron el estudio a partir de proteínas de diferentes especies.

Muchos artículos afirman que los aminoácidos más repetidos son los hidrofílicos(3). Sin embargo, vemos que hay aminoácidos hidrófobos, como la prolina, que también se repiten abundantemente. De todas formas, los resultados de los aminoácidos más repetidos concuerdan con los obtenidos en algunos artículos más recientes (5). También estamos de acuerdo con el mismo artículo (en el cual no se analizaron los mismos proteomas que los nuestros) en que las diferencias más significativas entre los proteomas están en las repeticiones de glutamina, asparagina y leucina, y en nuestro caso estas diferencias son sobretodo entre los proteomas de los mamíferos (humano y ratón) y el de Drosophila melanogaster.

Observando los gráficos de humano y ratón Fig.3 y Fig.4 resulta impactante ver que parece que se trate del mismo gráfico. Sin embargo, vemos que la escala del eje de las y es diferente (como ya hemos dicho el proteoma humano tiene más repeticiones). Por lo tanto, en el humano el aumento de repeticiones, con respecto al proteoma de ratón, parece haberse distribuido de forma homogénea por todos los aminoácidos.

Clica aquí para volver al índice

Longitud de las repeticiones

Si desglosamos los gráficos anteriores en diferentes longitudes de las repeticiones, obtenemos los gráficos siguientes.

Drosophila melanogaster

A medida que las repeticiones se hacen más largas también se hacen más escasas en todos los proteomas. Hay ciertas repeticiones, sin embargo, que tienden a ser más largas que otras. Así por ejemplo, en el caso de humano y de ratón, conforme vamos aumentando la longitud de la repetición también va aumentando la abundancia relativa (relativa a los otros aminoácidos) de las poliglutaminas. Las repeticiones largas en el caso de humano y ratón, pues, están formadas en su mayoría por glutamatos y glutaminas. Cabría destacar que en el ratón también aparecen muchas repeticiones largas de lisinas, mientras que en humano no hay ninguna.

Por otra parte, en Fugu rubripes no existen repeticiones largas. En Drosophila melanogaster, también aumenta la abundancia relativa de las poliglutaminas a medida que aumenta la longitud de la repetición y además son prácticamente las únicas que aparecen.

Clica aquí para volver al índice

Distribución de las repeticiones por cuartiles

En este caso, se trataba de ver si las repeticiones se distribuían aleatoriamente en la secuencia o bien tendían a producirse en alguna región concreta de la proteína.

Obtención de los datos para realizar la gráfica (egrep):

$ cut -d ' ' -f 12 resultados.txt > cuartil.txt ===> tendremos un archivo con únicamente la columna en la que aparece el cuartil en el que se encuentra la repetición.

$ sort cuartil.txt | uniq -c > cuartiluniq.txt ===> ordenamos los cuartiles y juntamos los que son iguales, así nos da el número de repeticiones por cuartil.

Fig.22

Observaciones:

Para analizar estos gráficos hay que tener en cuenta que la barra del medio de cada especie corresponde a la cantidad de repeticiones en dos cuartiles (2º y 3º) mientras que las otras dos barras sólo indican el número de repeticiones de un cuartil. Por lo tanto, si la distribución fuera al azar aparecerían las barras del medio con el doble de altura que las otras 2, que deberían tener una altura semejante.

En Fugu rubripes y Drosophila melanogaster aunque aparecen más repeticiones en el primer cuartil la diferencia con los otros no parece significativa. Sin embargo, en humano y ratón sí que podríamos decir que no existe una distribución aleatoria de las repeticiones a lo largo de la proteína sino que se suelen concentrar en el primer cuartil. En la bibliografía leída no aparece ninguna alusión a este hecho, de modo que desconocemos el porqué del mismo.

Clica aquí para volver al índice

Distribución de las repeticiones de cada aminoácido por cuartiles

Si esta distribución por cuartiles la analizamos en cada aminoácido podremos saber si hay ciertos aminoácidos que se repiten preferentemente en alguna región.

Obtención de los datos para realizar la gráfica (egrep):

$ cut -d ' ' -f 12 resultados.txt > cuartil.txt ===> tendremos un archivo con únicamente la columna en la que se encuentra la posición relativa de la repetición.

$ paste aa.txt cuartil .txt | sort | uniq -c > aacuartiluniq.txt ===> obtendremos un archivo en el cual la primera columna corresponderá al aminoácido y la segunda al cuartil. Con el sort ordenamos alfabéticamente por aminoácidos de manera que aminoácidos iguales saldrán juntos. Con el uniq, por último, juntamos las líneas iguales consecutivas, es decir, los aminoácidos iguales que además aparecen en el mismo cuartil.

Tanto en Fugu rubripes (Fig.25) como en Drosophila melanogaster(Fig.26) no destaca ningún aminoácido por tener una tendencia a acumularse en alguna región concreta de la proteína. Sólo existirían un par de casos en Drosophila melanogaster en el que el aminoácido aparece más veces en el primer cuartil pero no podemos decir que esto sea significativo ya que el número de repeticiones es pequeño, por lo tanto, lo más seguro es que sea efecto del azar.

En cambio, en humano (Fig.23) y ratón (Fig.24) existen algunos aminoácidos con tendencia a agrupar las repeticiones en el primer cuartil. Estos aminoácidos son: la alanina, la leucina y la glicina. Concretamente en la leucina, la diferencia parece muy significativa, así que es muy posible que las polileucinas en el extremo N-terminal tengan alguna función biológica importante.

Clica aquí para volver al índice

Porcentaje de proteínas en cada cromosoma que contienen una o más repeticiones

Con estos gráficos la intención era estudiar si había algún cromosoma que tuviera más repeticiones que el resto. Para poder comparar los diferentes cromosomas, ya que son de diferente tamaño, dividimos el número de proteínas que tenían repetición en cada cromosoma entre el número de proteínas totales de dicho cromosoma.

Sólo analizamos los cromosomas de ratón y de humano ya que son de los únicos que conocemos algo.

Obtención de los datos para realizar la gráfica (egrep):

$ cut -d ' ' -f 5 resultados.txt > chr.txt ===> tendremos un archivo con únicamente la columna en la que se encuentra el cromosoma

$ sort chr.txt | uniq -c > chruniq.txt> ===> obtendremos un archivo en el cual la columna con el número de cromosoma la ordenamos numéricamente y juntamos las líneas iguales, obteniendo así el número de proteínas con una o más repeticiones que aparecen en cada cromosoma.

Fig.27

Fig.28

Observaciones:

Tanto en humano como en ratón no aparece ningún cromosoma que destaque por tener un porcentaje muy elevado de proteínas con repeticiones ni tampoco por tener un porcentaje bajo.

Vuelve al índice

Comparación cromosoma X entre humano y ratón

Sólo es posible comparar el cromosoma X entre ratón y humano, ya que es el único que se mantiene conservado entre estas dos especies. No nos sería relevante compararlos también con el cromosoma X de Drosophila melanogaster, ya que no está constituido por los mismos genes.

Fig.29. Mapa de sintenia entre los genomas de humano y ratón

Obtención de los datos para realizar la gráfica (egrep):

Para comparar estos cromosomas hicimos la gráfica del mismo modo que la de análisis de aglomeración de todo el genoma, pero únicamente en el cromosoma X. Es decir, por un lado hicimos nº de proteínas con repetición en el cromosoma X entre nº de proteínas totales del mismo y, por otro lado, nº de repeticiones en el X entre nº de proteínas totales del X.

Fig.30

Observaciones:

Resulta interesante ver que el número de proteínas que tienen repetición en los cromosomas X de las dos especies, es prácticamente el mismo. Sin embargo, existen más repeticiones en el cromosoma X de humano, lo cual indica que las proteínas de humano, al menos en el cromosoma X (aunque también hemos visto que pasa en el proteoma), tienden a acumular más de una repetición.

Clica aquí para volver al índice

Poliglutaminas y enfermedad

Como hemos visto, las poliglutaminas son las repeticiones más largas, por eso decidimos consultar la bibliografía. La mayoría de artículos hacen referencia a que la expansión de las poliglutaminas causan diversos desórdenes neurológicos en humano (4) , varios cánceres, categorías de leucemias y abundancia de canales de calcio y potasio(5). Se conoce que las poliglutaminas se unen a otras proteínas posiblemente interfirienedo en su función, y esta podría ser la causa de estas patologías (4).

Como ejemplos conocidos tenemos (6)(7):

Huntingtina: La huntingtina es una proteína con una región de poliglutaminas altamente polimórfica (10-35 glutaminas seguidas) en la población normal y se ve expandida en los pacientes con corea de huntington (36-120). La longitud de la repetición incrementa, normalmente, en las sucesivas generaciones, aunque también se contrae en ocasiones. A más larga sea la expansión, más precoz es la enfermedad y probablemente más severas son sus manifestaciones. La corea de huntington, como su propio nombre indica, es una enfermedad que cursa con movimientos involuntarios, desórdenes psiquiátricos y demencia.
Receptor de Andrógenos: Esta proteína también contiene una región de poliglutaminas (17-26 glutaminas en la población normal). Una longitud menor de esta región está asociada al cáncer de próstata. Por otra parte, expansiones de entre 40 y 52 glutaminas, también producen enfermedad aunque en este caso se trata de una ataxia, conocida como enfermedad de Kennedy.
Ataxina-3 o proteína de la enfermedad de Machado-Joseph: Esta proteína es altamente polimórfica en la región de poliglutaminas (14-41 en la población normal) y se expande (entre 55 y 82) en los pacientes con la enfermedad de Machado Joseph. Al igual que en huntington, a mayor longitud de la región poliglutámica, más precoz y severa es la enfermedad. La enfermedad es un desorden neurodegenerativo, caracterizado por: ataxia cerebelosa, signos piramidales y extrapiramidales, oftalmoplegia, entre otros.

Todas estas enfermedades son autosómicas dominantes y los síntomas aparecen en edades avanzadas.

Viendo que existían tantas enfermedades relacionadas con la expansión de poliglutaminas, seleccionamos algunas proteínas que tenían una larga región de poliglutaminas y buscamos información sobre ellas para ver si también estaban asociadas a enfermedad.

Primero, ordenamos las proteínas que tenían repetición por aminoácido, seleccionamos aquellas en las que se repetía la glutamina y ordenamos por longitud de la repetición para escoger aquellas proteínas que tenían la repetición más larga. Con el identificador del gen, buscamos la proteína, su función y su posible asociación a enfermedad en swissprot y ensembl.(7)

Forkhead box protein P2: Es la proteína con una repetición de mayor longitud (40 glutaminas). Defectos en FOX-P2 son la causa de una enfermedad autosómica dominante que cursa con: desórdenes del habla y del lenguaje y dispraxia orofacial (también conocido como desorden del habla y del lenguaje I). No hemos encontrado qué tipo de defectos son los que causan esta enfermedad, pero teniendo en cuenta sus semejanzas con las anteriores (repetición de poliglutaminas y desorden neurológico), sería interesante y conveniente estudiar si existen diferencias entre la población normal versus la de enfermos en la longitud de esta región de poliglutaminas.
Tata box binding protein o TBP: Esta proteína tiene una región de poliglutaminas altamente polimórfica (25-42 glutaminas en la población normal) y se ve expandida (47-63) en los pacientes con SCA17 . A más larga es la repetición más precoz y severa es la enfermedad. La SCA17 o ataxia espinocerebelar 17 es un desorden neurológico complejo caracterizado por ataxia cerebelosa, signos piramidales y discapacidad intelectual.
La siguiente proteína con una repetición más larga era una con 34 glutaminas cuyo identificador no se encuentra en el ensembl (ENSG00000168839, éste es el identificador del gen que codifica para esta proteína).
Nuclear receptor coactivator 3: Es un receptor de la hormona tiroidea que se halla sobreexpresado en los cánceres de ovario y de mama. Especulamos que esto pueda tener algo que ver con la región de poliglutaminas y la longitud de la misma, ya que existen polimorfismos en la población.
La proteína con el identificador de gen ENSG00000168286 tiene 29 glutaminas seguidas, pero su función es desconocida.

Después de obtener estos datos concluímos que las proteínas con regiones largas de poliglutaminas son susceptibles a producir enfermedad, ya sea cáncer o enfermedad neurodegenerativa, por expansión o contracción de las mismas. Se sabe, que las regiones de poliglutaminas tienden a expanderse con las sucesivas generaciones. El principal mecanismo que puede explicar este hecho es el slippage: durante la replicación se darían errores en la hibridación de zonas que contienen repeticiones de trinucleótidos (codones), de manera que en la cadena sintetizada de nuevo se generarían copias extras del codón ( o también podría ser que perdiésemos copias).

Vuelve al índice

Estudio de las polileucinas

Tras ver en el gráfico de la distribución de los aminoácidos por cuartiles (fig.23), que la distribución de las polileucinas no estaba regida por el azar sino que la mayoría se acumulaban en el primer cuartil, intentamos dilucidar el porqué de este hecho. Usando prosite(6) buscamos todas las proteínas que tenían 7 o más leucinas. Para nuestra sorpresa todas ellas eran precursores (quizás las repeticiones de leucinas sean reconocidas por alguna proteasa) y tenían alguna función relacionada con la interacción entre proteínas; entre ellas había cadherinas, receptores, semaforinas, receptores delta-notch, enzimas.... Para ver los resultados de la búsqueda clica aquí.

Nos llamó la atención también el hecho de que muchas de estas proteínas actuaban durante el desarrollo embrionario (notch-delta, smothened, semaforinas, efrinas, precursores placentarios, coriogonadotropinas....), quizás debido a que en el desarrollo se producen muchas interacciones proteína-proteína para transducir señales. También había muchas relacionadas con el sistema inmunitario (interleukinas, proteínas del complemento, citokinas, proteínas estimuladoras del crecimiento de los macrófagos...) probablemente debido a los mismos motivos. La mayoría de estas proteínas tenían un dominio de unión en el extremo N-terminal cosa que coincide con la localización de la mayoría de polileucinas. Por tanto, es muy posible que tengan algo que ver con la interacción entre proteínas.

Clica aquí para volver al índice

CONCLUSIONES

Muchos hechos interesantes se desprenden de las regiones homopoliméricas, aunque a decir verdad, no se ha profundizado en el tema. Dado que estas repeticiones se relacionan con muchas enfermedades, desarrollo embrionario e incluso respuesta inmunitaria resultaría conveniente que se llevasen a cabo más investigaciones; tanto a nivel descriptivo como sobretodo a nivel funcional, para llegar a comprender y asimilar el porqué y la importancia biológica de las mismas.

Clica aquí para volver al índice

REFERENCIAS

http://genome.imim.es/courses/BioinformaticaUPF
M. Mar Albà, Mauro F. Santibáñez-Koref, John M. Hancock (1999). Amino Acid Reiteration in Yeast Are Overrepresented in Particular Classes of Proteins and Show Evidence of a Slippage-Like Mutational Process. J Mol Evol 49: 789-797.
Howard Green, Norman Wang (1994). Codon Reiteration and the Evolution of Proteins. Proc.Natl.Acad.Sci. Evolution 91: 4298-4302.
Melanie A. Huntley, G. Brian Golding (2002) Simple Sequences are Rare in the Protein Data Bank. Proteins 48: 134-140.
Samuel Karlin, Luciano Broccchieri, Aviv Bergman, Jan Mrazek, Andrew J. Gentles (2001) Amino Acid runs in Eukariotic proteomes and Disease associations. Pnas 99:333-338.
Prosite
Ensembl