Emmascarament de la seqüència.
Identificació i anàlisi de les regions repetitives

Una gran part del genoma humà correspon a famílies de petit nombre de repeticions. El primer pas a l'hora de realitzar l'anàlisi d'una seqüència és l'emmascarament de les regions repetitives, per tal de reduir el soroll que suposa la presència d'aquestes, que dificultaria l'adequada predicció de gens i, en conseqüència, l'anàlisi del contig.

- Identificació de les seqüències repetitives

L'emmascrament de la seqüència es va realitzar mitjançant la utilització del programa en xarxa EMBL RepeatMasker Server, marcant Slow com a opció de running, i així tenir una major sensibilitat.

Aquest programa ens va proporcionar la seqüència emmascarada en la qual les diferents repeticions detectades estan representades amb una N.

A més, el Repeat Masker també va donar la següent taula en la qual es representen les diferents repeticions, el nombre d'elements, la longitud ocupada i el precentatge del total del genoma:

Taula 1. Repeticions


==================================================
file name: repeat.seq
sequences:            1
total length:    499950 bp  (499950 bp excl N-runs)
GC level:         41.18 %
bases masked:    299532 bp ( 59.91 %)
==================================================
               number of      length   percentage
               elements*    occupied  of sequence
--------------------------------------------------
SINEs:              607       156643 bp    31.33 %
      ALUs          557       150085 bp    30.02 %
      MIRs           50         6558 bp     1.31 %

LINEs:              160        83307 bp    16.66 %
      LINE1         102        68623 bp    13.73 %
      LINE2          55        13836 bp     2.77 %
      L3/CR1          3          848 bp     0.17 %

LTR elements:        58        38951 bp     7.79 %
      MaLRs          22        12078 bp     2.42 %
      ERVL           10         8294 bp     1.66 %
      ERV_classI     23        16200 bp     3.24 %
      ERV_classII     2         1975 bp     0.40 %

DNA elements:        45        10161 bp     2.03 %
      MER1_type      20         3210 bp     0.64 %
      MER2_type      13         5549 bp     1.11 %

Unclassified:         2         2761 bp     0.55 %

Total interspersed repeats:   291823 bp    58.37 %


Small RNA:            9          653 bp     0.13 %

Satellites:           0            0 bp     0.00 %
Simple repeats:      76         4103 bp     0.82 %
Low complexity:      74         2984 bp     0.60 %
==================================================

* most repeats fragmented by insertions or deletions
  have been counted as one element


The sequence(s) were assumed to be of primate origin.
RepeatMasker version 2002/07/13 , sensitive mode
run with cross_match version 0.990329
RepBase / RepeatMasker database versions unknown

Mapa 1. Seqüències repetitives

- Anàlisi de les seqüències repetitives

A la taula anterior es pot observar que el percentatge de Long Interspersed repetitive Elements (LINEs) a ENr324 (16'66%) é menor al contingut mig al genoma (21% aproximadament). Aquest fet indica una menor activitat retrotransposable autónoma en aquesta zona donada per aquest tipus de repeticions, ja que els LINEs poden codificar per una endonucleasa i una transcriptasa reversa.
En canvi, podem determinar una major proporció de Short Interspersed repetitive Elements (SINEs) en la seqüència analitzada (31'33%), un valor força superior al percentatge que trobem en tot el genoma humà, el qual representa aproximadament el 13% del genoma. Aquesta elevada proporció, representada principalment pels elements Alu, indica un gran activitat retrotransponible, tot i que no autònoma, en aquesta regió en els últims milers d'anys, donat que aquest tipus de repeticions són exclusives dels primats.

Emmascarament de la seqüència. Identificació i anàlisi de les regions repetitives

- Identificació de les seqüències repetitives

- Anàlisi de les seqüències repetitives

Emmascarament de la seqüència.
Identificació i anàlisi de les regions repetitives