NT024452
Emmascarament de la seqüència
Les seqüències de DNA
presenten una gran quantitat d'elements repetitius. De fet, només el 2%
de genoma humà codifica per proteïnes, i de la resta encara se'n coneix
poc. El que pretenem en aquest treball és analitzar un fragment
d'aquest genoma que, evidentment presenta elements repetititius, els
quals podrien interferir en el nostre resultat. Per exemple, a l'hora
de buscar gens, exons, introns,... les repeticions ens podrien dur
problemes en l'anàlisi amb determinats programes.
El primer
que hem de fer per tant, és identificar aquests elements repetitius i
classificar-los en funció de la família a la que pertanyen. Per tal de
dur-ho a terme utilitzarem el programa Repeat Masker de EMBL.
En
primer lloc vam obtenir la seqüència emmascarada amb X, i desprès amb
N, per tal d'evitar problemes amb certs programes com BLAST, els quals
podrien tenir dificultats a l'hora de reconèixer les X . A partir
d'ara, la resta de treball es duu a terme amb la seqüència emmascarada.
El programa RepeatMasker ens genera 3 fitxers:
- La seqüència emmascarada repeat.seq1fm1.masked.txt
- La anotació de les diferents repeticions
- La següent taula resumint el contingut en elements repetitius.
file name: repeat.seq
sequences: 1
total length: 500000 bp (500000 bp excl N-runs)
GC level: 43.10 %
bases masked: 238530 bp ( 47.71 %)
==================================================
number of length percentage
elements* occupied of sequence
--------------------------------------------------
SINEs: 312 73246 bp 14.65 %
ALUs 207 57024 bp 11.40 %
MIRs 105 16222 bp 3.24 %
LINEs: 159 86721 bp 17.34 %
LINE1 80 64722 bp 12.94 %
LINE2 66 16777 bp 3.36 %
L3/CR1 13 5222 bp 1.04 %
LTR elements: 104 51874 bp 10.37 %
MaLRs 56 21864 bp 4.37 %
ERVL 17 5081 bp 1.02 %
ERV_classI 31 24929 bp 4.99 %
ERV_classII 0 0 bp 0.00 %
DNA elements: 71 19515 bp 3.90 %
MER1_type 44 10160 bp 2.03 %
MER2_type 9 5872 bp 1.17 %
Unclassified: 2 2233 bp 0.45 %
Total interspersed repeats: 233589 bp 46.72 %
Small RNA: 1 105 bp 0.02 %
Satellites: 0 0 bp 0.00 %
Simple repeats: 61 2789 bp 0.56 %
Low complexity: 44 2100 bp 0.42 %
==================================================
* most repeats fragmented by insertions or deletions
have been counted as one element
The sequence(s) were assumed to be of primate origin.
RepeatMasker version 2002/07/13 , sensitive mode
run with cross_match version 0.990329
RepBase / RepeatMasker database versions unknown
En la taula resum podem observar que el 47.71% de la seqüència són
repeticions. Recordem que el 45% del genoma humà presenta elements
repetitius. També podem apreciar que les 3 famílies mé,s
importants SINEs, LINEs i LTR es troben representades en 14,65%, 17,34%
i 10,37% respectivament.
El contingut en GC és del 43,1%, valor semblant a la resta de genoma
(41%). Cal recordar que gran part de les regions codificants del genoma
es troben en aquestes zones d'elevat contingut GC, concretament entre
el 75-80% dels gens.
A més, també cal esmentar que les bases emmascarades representen el
47,71% de la seqüència, valor d'esperar, ja que normalment és del 50%.
Un
cop analitzada la taula, seria interessant poder visualitzar la
distribució de les repeticions al llarg de la seqüència. Així partim
del fitxer en què es trobaven anotats els elements repetitius, i el
transformem a un format gff.
Per tal de dur a terme aquesta transformació necessitem les comandes següents:
Un cop tenim el format gff, mitjançant el programa gff2ps aconseguim un fitxer en format ps.
I finalment ho visualitzem amb el programa kview:
- convert -rotate 90 repeat.seq1fm.out.ps repeat.seq1fm.out.jpg
- kview repeat.seq1fm.out.jpg