Obtenció de la seqüència de DNA

Caracterització de la seqüència

La seqüència AC091491 obtinguda de la base de dades Embl (AC091491.embl) està localitzada a la banda p24.3 del cromosoma 3 d'Homo sapiens, concretament entre les posicions 16927676-17080563.





Fig 1: Localització cromosòmica del contig


Per tal de poder treballar amb la seqüència l'hem convertit en format fasta utilitzant la comanda:


Seguidament l'hem convertit en format tabular per poder realitzar un contatge de les diferents bases i les proporcions amb que les trobem dins la seqüència, amb les següents comandes:

    - Format tabular:

    awk '{printf "%s", $0}' AC091491.fa > AC091491.tbl


    - Llargada de la seqüència:

    awk '{print length($2)}' AC091491.tbl

    Resultat: 152882


    - Contingut de g+c:

    awk '{print $2}' AC091491.tbl | fold -1 | sort | uniq -c | gawk '{print $2, $1/152882}'

    Resultats:

    Adenina: 0.323073
    Citosina: 0.200802
    Guanina: 0.189257
    Timina: 0.286868

Com es pot observar el contingut en A i T és una mica superior al de C i G, igual que en el conjunt del genoma humà.


Identificació de les regions repetitives i emmascarament de la seqüència

Bona part del DNA genòmic està constituit per elements repetitius. Per tal d'identificar-los en la nostra seqüència s'ha utilitzat el programa RepeatMasker, a través del servidor EMBL RepeatMasker server , d'on s'ha obtingut el següent quadre que ens mostra el contingut dels diferents elements repetitius.

================================================== file name: repeat.seq sequences: 1 total length: 152882 bp (152882 bp excl N-runs) GC level: 39.01 % bases masked: 61488 bp ( 40.22 %) ================================================== number of length percentage elements* occupied of sequence -------------------------------------------------- SINEs: 41 8730 bp 5.71 % ALUs 23 6164 bp 4.03 % MIRs 18 2566 bp 1.68 % LINEs: 42 36478 bp 23.86 % LINE1 24 31730 bp 20.75 % LINE2 17 4646 bp 3.04 % L3/CR1 1 102 bp 0.07 % LTR elements: 8 4478 bp 2.93 % MaLRs 6 3347 bp 2.19 % ERVL 1 504 bp 0.33 % ERV_classI 1 627 bp 0.41 % ERV_classII 0 0 bp 0.00 % DNA elements: 20 8519 bp 5.57 % MER1_type 11 1888 bp 1.23 % MER2_type 3 5918 bp 3.87 % Unclassified: 1 1830 bp 1.20 % Total interspersed repeats: 60035 bp 39.27 % Small RNA: 0 0 bp 0.00 % Satellites: 0 0 bp 0.00 % Simple repeats: 15 673 bp 0.44 % Low complexity: 24 781 bp 0.51 % ==================================================



A més a més amb el RepeatMasker s'ha obtingut:


Podem observar que un 40.22% de la seqüència està formada per elements repetitius. S'ha detectat que els elements LINEs, SINEs i LTR representen aproximadament el 32.5% de la seqüència, valor inferior al 45% que s'observen en el conjunt del genoma.
Les regions codificants també es caracteritzen per un contingut més elevat en G i C respecte a regions no codificants; com podem veure en la nostra seqüència aquest contingut és d'un 39 %, però això no descarta la possibilitat de trobar-hi gens.

Per tal de visualitzar la distribució d'aquests elements repetitius al llarg de la seqüència a través del programa ghostview, s'ha utilitzat el programma gff2ps, després d'haver transformat el format del output AC091491.seq.out a format gff. Per això hem utilitzat les següents comandes:




Fig 2: Distribució dels elements repetitius.