Emmascarament de la seqüència.
Identificació i anàlisi de les regions repetitives


Una gran part del genoma humà correspon a famílies de petit nombre de repeticions. El primer pas a l'hora de realitzar l'anàlisi d'una seqüència és l'emmascarament de les regions repetitives, per tal de reduir el soroll que suposa la presència d'aquestes, que dificultaria l'adequada predicció de gens i, en conseqüència, l'anàlisi del contig.


- Identificació de les seqüències repetitives

L'emmascrament de la seqüència es va realitzar mitjançant la utilització del programa en xarxa EMBL RepeatMasker Server, marcant Slow com a opció de running, i així tenir una major sensibilitat.

Aquest programa ens va proporcionar la seqüència emmascarada en la qual les diferents repeticions detectades estan representades amb una N.

A més, el Repeat Masker també va donar la següent taula en la qual es representen les diferents repeticions, el nombre d'elements, la longitud ocupada i el precentatge del total del genoma:

Taula 1. Repeticions
================================================== file name: repeat.seq sequences: 1 total length: 499950 bp (499950 bp excl N-runs) GC level: 41.18 % bases masked: 299532 bp ( 59.91 %) ================================================== number of length percentage elements* occupied of sequence -------------------------------------------------- SINEs: 607 156643 bp 31.33 % ALUs 557 150085 bp 30.02 % MIRs 50 6558 bp 1.31 % LINEs: 160 83307 bp 16.66 % LINE1 102 68623 bp 13.73 % LINE2 55 13836 bp 2.77 % L3/CR1 3 848 bp 0.17 % LTR elements: 58 38951 bp 7.79 % MaLRs 22 12078 bp 2.42 % ERVL 10 8294 bp 1.66 % ERV_classI 23 16200 bp 3.24 % ERV_classII 2 1975 bp 0.40 % DNA elements: 45 10161 bp 2.03 % MER1_type 20 3210 bp 0.64 % MER2_type 13 5549 bp 1.11 % Unclassified: 2 2761 bp 0.55 % Total interspersed repeats: 291823 bp 58.37 % Small RNA: 9 653 bp 0.13 % Satellites: 0 0 bp 0.00 % Simple repeats: 76 4103 bp 0.82 % Low complexity: 74 2984 bp 0.60 % ================================================== * most repeats fragmented by insertions or deletions have been counted as one element The sequence(s) were assumed to be of primate origin. RepeatMasker version 2002/07/13 , sensitive mode run with cross_match version 0.990329 RepBase / RepeatMasker database versions unknown

Mapa 1. Seqüències repetitives


- Anàlisi de les seqüències repetitives

A la taula anterior es pot observar que el percentatge de Long Interspersed repetitive Elements (LINEs) a ENr324 (16'66%) é menor al contingut mig al genoma (21% aproximadament). Aquest fet indica una menor activitat retrotransposable autónoma en aquesta zona donada per aquest tipus de repeticions, ja que els LINEs poden codificar per una endonucleasa i una transcriptasa reversa.

En canvi, podem determinar una major proporció de Short Interspersed repetitive Elements (SINEs) en la seqüència analitzada (31'33%), un valor força superior al percentatge que trobem en tot el genoma humà, el qual representa aproximadament el 13% del genoma. Aquesta elevada proporció, representada principalment pels elements Alu, indica un gran activitat retrotransponible, tot i que no autònoma, en aquesta regió en els últims milers d'anys, donat que aquest tipus de repeticions són exclusives dels primats.