Emmascarament de la seqüència

Les seqüències de DNA presenten una gran quantitat d'elements repetitius. De fet, només el 2% de genoma humà codifica per proteïnes, i de la resta encara se'n coneix poc. El que pretenem en aquest treball és analitzar un fragment d'aquest genoma que, evidentment presenta elements repetititius, els quals podrien interferir en el nostre resultat. Per exemple, a l'hora de buscar gens, exons, introns,... les repeticions ens podrien dur problemes en l'anàlisi amb determinats programes.

El primer que hem de fer per tant, és identificar aquests elements repetitius i classificar-los en funció de la família a la que pertanyen. Per tal de dur-ho a terme utilitzarem el programa Repeat Masker de EMBL.

En primer lloc vam obtenir la seqüència emmascarada amb X, i desprès amb N, per tal d'evitar problemes amb certs programes com BLAST, els quals podrien tenir dificultats a l'hora de reconèixer les X . A partir d'ara, la resta de treball es duu a terme amb la seqüència emmascarada.

El programa RepeatMasker ens genera 3 fitxers:

- La seqüència emmascarada repeat.seq1fm1.masked.txt
- La anotació de les diferents repeticions
- La següent taula resumint el contingut en elements repetitius.



file name: repeat.seq

sequences:            1
total length:    500000 bp  (500000 bp excl N-runs)
GC level:         43.10 %
bases masked:    238530 bp ( 47.71 %)
==================================================
               number of      length   percentage
               elements*    occupied  of sequence
--------------------------------------------------
SINEs:              312        73246 bp    14.65 %
      ALUs          207        57024 bp    11.40 %
      MIRs          105        16222 bp     3.24 %

LINEs:              159        86721 bp    17.34 %
      LINE1          80        64722 bp    12.94 %
      LINE2          66        16777 bp     3.36 %
      L3/CR1         13         5222 bp     1.04 %

LTR elements:       104        51874 bp    10.37 %
      MaLRs          56        21864 bp     4.37 %
      ERVL           17         5081 bp     1.02 %
      ERV_classI     31        24929 bp     4.99 %
      ERV_classII     0            0 bp     0.00 %

DNA elements:        71        19515 bp     3.90 %
      MER1_type      44        10160 bp     2.03 %
      MER2_type       9         5872 bp     1.17 %

Unclassified:         2         2233 bp     0.45 %

Total interspersed repeats:   233589 bp    46.72 %


Small RNA:            1          105 bp     0.02 %

Satellites:           0            0 bp     0.00 %
Simple repeats:      61         2789 bp     0.56 %
Low complexity:      44         2100 bp     0.42 %
==================================================

* most repeats fragmented by insertions or deletions
  have been counted as one element

The sequence(s) were assumed to be of primate origin.
RepeatMasker version 2002/07/13 , sensitive mode
run with cross_match version 0.990329
RepBase / RepeatMasker database versions unknown



En la taula resum podem observar que el 47.71% de la seqüència són repeticions. Recordem que el 45% del genoma humà presenta elements repetitius. També podem apreciar que les 3 famílies mé,s importants SINEs, LINEs i LTR es troben representades en 14,65%, 17,34% i 10,37% respectivament.

El contingut en GC és del 43,1%, valor semblant a la resta de genoma (41%). Cal recordar que gran part de les regions codificants del genoma es troben en aquestes zones d'elevat contingut GC, concretament entre el 75-80% dels gens.

A més, també cal esmentar que les bases emmascarades representen el 47,71% de la seqüència, valor d'esperar, ja que normalment és del 50%.

Un cop analitzada la taula, seria interessant poder visualitzar la distribució de les repeticions al llarg de la seqüència. Així partim del fitxer en què es trobaven anotats els elements repetitius, i el transformem a un format gff.

Per tal de dur a terme aquesta transformació necessitem les comandes següents:

- grep repeat.seq1fm.out.txt | awk 'BEGIN{OFS="\t"}{print $5, $11, "repeat", $6,$7,".", ".", "."}' > repeat.seq1fm.out.gff



Un cop tenim el format gff, mitjançant el programa gff2ps aconseguim un fitxer en format ps.

- gff2ps repeat.seq1fm.out.gff > repeat.seq1fm.out.ps


I finalment ho visualitzem amb el programa kview:

- convert -rotate 90 repeat.seq1fm.out.ps repeat.seq1fm.out.jpg
- kview repeat.seq1fm.out.jpg