Anàlisis de repeticiones d'aminoàcids en proteïnes de vertebrats i relació amb el contingut GC del gen

Supervisió: Mar Albà
malba@imim.es
Febrer 2005
Introducció a la questió biològica:
Molt sovint en les proteïnes d'eucariotes trobem repeticions d'aminoàcids en tandem, són les zones anomenades homopolimèriques. Un dels mecanismes que pot explicar l'abundancia d'aquestes regions repetitives és l'anomenat "slippage". Durant la replicació es donarien errors en la hibridació de zones que contenen repeticions de trinucleotids (codons), de manera que en la cadena sintetitzada de nou se'n generarien copies extres del codó (o també pot ser que perdessim copies). Aquestes copies, del mateix codó, ens resultarien en les regions homopolímeriques d'aminoàcids. Si són anormalment llargues ens poden donar lloc a proteïnes patògeniques, com passa amb l'enfermetat de Huntington. En general, aquestes regions són especialment abundants en factors de transcripció, i en alguns casos s'ha vist que tenen un efecte sobre la regulació transcripcional, modulant interaccions proteïna-prote&
iuml;na entre diferents factors de transcripció. 
Exemple de proteïna amb repeticions d'aminoàcids (glutamina): 
>gi|25044787|gb|AAK93831.1| nuclear transcription factor/notch receptor regulator [Homo sapiens]
MGDTAPPQAPAGGLGGASGAGLLGGGSVTPRVHSAIVERLRARIAVCRQHHLSCEGRYERGRAESSDRERESTLQLLSLVQHGQGARKAGKHTKATATAATTTAPPPPPAAPPAASQAAATAAPPPPPDYHHHHQQHLLN
SSNNGGSGGINGEQQPPASTPGDQRNSALIALQGSLKRKQVVNLSPANSKRPNGFVDNSFLDIKRIRVGENLSAGQGGLQINNGQSQIMSGTLPMSQAPLRKTNTLPSHTHSPGNGLFNMGLKEVKKEPGETLSCSKHMD
GQMTQENIFPNRYGDDPGEQLMDPELQELFNELTNISVPPMSDLELENMINATIKQDDPFNIDLGQQSQRSTPRPSLPMEKIVIKSEYSPGLTQGPSGSPQLRPPSAGPAFSMANSALSTSSPIPSVPQSQAQPQTGSGA
SRALPSWQEVSHAQQLKQIAANRQQHARMQQHQQQHQPTNWSALPSSAGPSPGPFGQEKIPSPSFGQQTFSPQSSPMPGVAGGSGQSKVMANYMYKAGPSAQGGHLDVLMQQKPQDLSRSFINNPHPAMEPRQGNTKPLF
HFNSDQANQQMPSVLPSQNKPSLLHYTQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQSSISAQQQQQQQSSISAQQQQQQQQQQQQQQQQQQQQQQQQQQQPSSQPAQSLPSQPLLRSPLPLQQKLLLQQMQNQPIAGM
GYQVSQQQRQDQHSVVGQNTGPSPSPNPCSNPNTGSGYMNSQQSLLNQQLMGKKQTLQRQIMEQKQQLLLQQQMLADAEKIAPQDQINRHLSRPPPDYKDQRRNVGNMQPTAQYSGGSSTISLNSNQALANPVSTHTILT
PNSSLLSTSHGTRMPSLSTAVQNMGMYGNLPCNQPNTYSVTSGMNQLTQQRNPKQLLANQNNPMMPRPPTLGPSNNNNVATFGAGSVGNSQQLRPNLTHSMASMPPQRTSNVMITSNTTAPNWASQEGTSKQQEALTSAG
VRFPTGTPAAYTPNQSLQQAVGSQQFSQRAVAPPNQLTPAVQMRPMNQMSQTLNGQTMGPLRGLNLRPNQLSTQILPNLNQSGTGLNQSRTGINQPPSLTPSNFPSPNQSSRAFQGTDHSSDLAFDFLSQQNDNMGPALN
SDADFIDSLLKTEPGNDDWMKDINLDEILGNNS

Varis autors han observat que existeixen diferències marcades en el contingut de guanosina i citosina (GC) en gens que codifiquen per repeticions d'aminoàcids (veure bibliografia). Això podria implicar que determinades zones del genoma, més riques en GC, podrien ser més propenses a acumular repeticions que d'altres.

Objectiu: Estudiarem la distribució de repeticions d'aminoàcids (homopolimers) en proteïnes de diversos vertebrats. Compararem el contingut en repeticiones en diverses especies i la seva relació amb el contingut GC del gen. També estudiarem l'ocurrencia de repeticions en proteïnes que es troben conservades en diverses especies versus aquelles que son específiques d'especie. Finalment analitzarem les característiques especials d'un conjunt de proteïnes amb repeticions que están associades a enfermetats en humans. 
Metodologia: 

A partir de la base de dades Ensembl obtindrem informació sobre les proteïnes codificades en els genomes de Homo sapiens, Gallus gallus (aus), Tetraodon nigrovidiris (peixos) i Fugu rubripes (peixos): identificador del gen i la proteïna, contingut en GC del gen, conservación de la proteïna en altres especies. També obtindrem les seqüències de les proteïnes a partir de la mateixa base de dades. Farem un programa en Perl per contar les repeticiones d'aminoàcids en tàndem (5 repeticions o més seguides) en aquestes proteïnes, pels 20 aminoàcids diferents. Compararem l'ocurrencia de repeticions amb el contingut GC dels gens, i també de diferents conjunts de proteïnes amb un grau de conservació diferent. Estudiarem les característiques d'un conjunt de gens amb repeticions involucrats en enfermetats (Huang et al., 2004). Per la representació gràfica dels resultats podem fer servir R. Per la 
interpretació dels resultats en ajudarem de la literatura sobre el tema.
Bibliografia:
Albà, M.M., Guigó, R. (2004). Comparative analysis of amino acid repeats in rodents and humans. Genome Research, Vol. 14: 549-554. [PDF] 
Huang, H., Winter, E.E., Wang, H., Weinstock, K.G., Xing, H., Goodstadt, L., Stenson, P.D., Cooper, D.N., Smith, D., Albà, M.M., Ponting, C.P., Fechtel, K. (2004). Conservation of human disease genes in the rat genome. Genome Biology, Vol. 5: R47 [PDF] 
Karlin, S., Brocchieri, L., Bergman, A., Mrazek, J., and Gentles, A. J. (2002) Amino acid runs in eukaryotic proteomes and disease associations. Proceeding of the National Academy of Sciences USA 99, 333 - 338. [PDF] 
Cocquet, J., De Baere, E., Caburet, S., Veitia, R.A. (2003) Compositional biases and polyalanine runs in humans. Genetics 165: 1613-1617. [PDF] 
Nakachi, Y., Hayakawa, T., Oota, H., Sumiyama, K., Wang, L., Ueda, S. (1997). Nucleotide compositional constraints on genomes generate alanine-, glycine-, and proline-rich structures in transcription factors. Molecular Biology and Evolution 14: 1042-1049 [PDF] 



Metodologia i anàlisis detallat

Sequències:

Utilitzarem Ensmart a Ensembl (www.ensembl.org) per obtenir els següents fitxers:

1. proteïnes humanes

Focus: Ensembl Genes
Species: Homo sapiens

Filter

Limit to (uncheck for entire genome): uncheck

Output

Ensembl Gene ID
Description
Ensembl Peptide ID
% GC content

Text, separated by tabs

2. proteïnes de G.gallus
3. proteïnes de Tetraodon
4. proteïnes de Fugu

-> farem el mateix que per les especies humanes pero escollint l'especie corresponent

5. proteïnes humanes conservades en les altres tres especies

el mateix que anteriorment però a més:

Filter

x  	 	Entries associated with homologous G gallus (chicken) genes  	X Only  Excluded			

 	 											 	 	 	
 	 	 	 											 	 	 	
 	 	 	 	 	 							 	 	 	 	 	
x  	Entries associated with homologous T nigroviridis (tetraodan) genes  	X Only  Excluded															

 	 	 	 							 	 	 	 	 	
x  	 	Entries associated with homologous F rubripes (fugu) genes	X Only  Excluded												


Output

MULTI SPECIES COMPARISONS
Per cadascún de G.gallus, T.nigroviridis i F.rubripes marcar:

Species Ensembl Gene ID
Species Ensembl Peptide ID

6. proteïnes humanes que no es troben en les altres tres especies

-> el mateix que 5 pero ara escollirem "excluded", a l'Output només treurem les proteïnes humanes.

7. proteïnes de G.gallus que no es troben en les altres tres especies
8. proteïnes de Tetraodon que no es troben en les altres tres especies
9. proteïnes de Fugu que no es troben en les altres tres especies

-> el mateix que 6 pero escollint les especies apropiades

10. proteïnes humanes involucrades amb enfermetats 

Extraurem de les llistes anteriors els següents gens humans involucrats en enfermetats:

locus disease Ensembl_Gene_ID
CACNA1A spinocerebellar ataxia 6 ENSG00000141837
DRPLA dentatorubro-pallidolusyan atrophy ENSG00000111676
HD Huntington disease ENSG00000125387
MJD Majado-Joseph disease ENSG00000066427
SCA1 spinocerebellar ataxia 1 ENSG00000124788
SCA2 spinocerebellar ataxia 2 ENSG00000089232
SCA7 spinocerebellar ataxia 7 ENSG00000163635
TBP spinocerebellar ataxia 17 ENSG00000112592

Les seqüències les obtindrem del servidor (persy). Si els arxius porten l'extensió .gz els haurem de descomprimir (gunzip):

/disc8/genomes/T.rubripes/ensembl/Fugu_rubripes.FUGU2.dec.pep.fa.gz
/disc8/genomes/G.gallus/ensembl/Gallus_gallus.WASHUC1.dec.pep.fa.gz
/disc8/genomes/H.sapiens/ensembl/Homo_sapiens.NCBI35.dec.pep.fa.gz
/disc8/genomes/T.nigroviridis/ensembl/Tetraodon_nigroviridis.TETRAODON7.dec.pep.fa.gz

Només ens interessarán aquelles proteïnes de les llistes 1-10. Podem escriure un programa en Perl per extreure les seqüències que ens interessen. Llegirem cada seqüència i si tenim l'identificador a la taula posarem la seqüència en un fitxer de sortida. 

Programa per identificar repeticions d'aminoàcids

Un cop tinguem els conjunts de seqüències que ens interessen calcularem amb un programa en Perl si tenen repeticions d'aminoàcids en tandem d'una llargada d'almenys 5 aminoàcids seguits. Podem anar recorrent la seqüència i, per cada tipus d'aminoàcid, mirar si hi ha una repetició. 
Us interessara crear un vector que contingui els 20 aminoàcids diferents. També us poden servir les comandes:

substr 
$seq_parcial=substr($seq_sencera,$i); # posem un tros de sequencia a la variable $seq_parcial, des de la posició $i de $seq_sencera fins al final, pot servir per anar recorrent la seqüència

expressió regular
if ($seq_partical =~/^($aa{5,})/) # mirarem si la $seq_parcial comença amb una tira de 5 o més aminoacids iguals seguits, a on $aa és un determinat aminoàcid
{
....
}

Podem generar unes taules de sortida que incloguin, a més dels camps ja recuperats d'Ensembl (llistes 1-10), informacio de si hi ha alguna repeticio d'aminoàcid (SI/NO), de quin aminoàcid és, i la seva llargada. Per exemple:

linea 1: "camps d'Ensembl" SI Q 8
linea 2: "camps d'Ensembl" SI A 5
linea 3: "camps d'Ensembl" NO
...

Fixeu-vos que, si una proteïna té varies repeticions, tindrem més d'una linea per aquella proteïna. Per exemple linea 1 i 2 podrien correspondre a dos gens diferents o bé al mateix gen, ho veuriem amb els indentificadors d'Ensembl.

Anàlisis

L'anàlisi inclourà els següents punts:

- Compararem el contingut en repeticions de les proteïnes de les 4 especies diferents, per cada un dels 20 aminoàcids.

- Compararem el contingut GC de les proteïnes amb repeticions i el conjunt total de proteïnes d'una especie, i les diferencies entre especies.

- Hi ha diferencies en la distribució de GC entre les diferents especies de vertebrats? Si n'hi ha, quina relació pot tenir això amb les diferencies a nivell del contingut en repeticions?

- Compararem les diferencies en el contingut en repeticions i en contingut GC de proteines amb diferents graus de conservacio (per exemple quines diferencies hi ha entre les proteines de les llistes 1, 5 i 6?).

- Definirem les característiques de les proteïnes involucrades en enfermetats. Tenes característiques diferencials?

Els resultats els compararem amb les dades obtingudes per altres autors (veure llista de bibliografia a dalt). A part d'aquest punts us poden sorgir altres questions interessants durant l'anàlisi, que us encoratgem a investigar.