El primer
que hem de fer per tant, és identificar aquests elements repetitius i
classificar-los en funció de la família a la que pertanyen. Per tal de
dur-ho a terme utilitzarem el programa Repeat Masker de EMBL.
En
primer lloc vam obtenir la seqüència emmascarada amb X, i desprès amb
N, per tal d'evitar problemes amb certs programes com BLAST, els quals
podrien tenir dificultats a l'hora de reconèixer les X . A partir
d'ara, la resta de treball es duu a terme amb la seqüència emmascarada.
El programa RepeatMasker ens genera 3 fitxers:
file name: repeat.seq
sequences: 1
total length: 500000 bp (500000 bp excl N-runs)
GC level: 43.10 %
bases masked: 238530 bp ( 47.71 %)
==================================================
number of length percentage
elements* occupied of sequence
--------------------------------------------------
SINEs: 312 73246 bp 14.65 %
ALUs 207 57024 bp 11.40 %
MIRs 105 16222 bp 3.24 %
LINEs: 159 86721 bp 17.34 %
LINE1 80 64722 bp 12.94 %
LINE2 66 16777 bp 3.36 %
L3/CR1 13 5222 bp 1.04 %
LTR elements: 104 51874 bp 10.37 %
MaLRs 56 21864 bp 4.37 %
ERVL 17 5081 bp 1.02 %
ERV_classI 31 24929 bp 4.99 %
ERV_classII 0 0 bp 0.00 %
DNA elements: 71 19515 bp 3.90 %
MER1_type 44 10160 bp 2.03 %
MER2_type 9 5872 bp 1.17 %
Unclassified: 2 2233 bp 0.45 %
Total interspersed repeats: 233589 bp 46.72 %
Small RNA: 1 105 bp 0.02 %
Satellites: 0 0 bp 0.00 %
Simple repeats: 61 2789 bp 0.56 %
Low complexity: 44 2100 bp 0.42 %
==================================================
* most repeats fragmented by insertions or deletions
have been counted as one element
The sequence(s) were assumed to be of primate origin.
RepeatMasker version 2002/07/13 , sensitive mode
run with cross_match version 0.990329
RepBase / RepeatMasker database versions unknown
