Obtenció de la seqüència de DNA
Caracterització de la seqüència
La seqüència AC091491 obtinguda de la base de dades Embl (AC091491.embl) està localitzada a la banda p24.3 del cromosoma 3 d'Homo sapiens, concretament entre les posicions 16927676-17080563.
Per tal de poder treballar amb la seqüència l'hem convertit en format fasta utilitzant la comanda:
Seguidament l'hem convertit en format tabular per poder realitzar un contatge de les diferents bases i les proporcions amb que les trobem dins la seqüència, amb les següents comandes:
awk '{printf "%s", $0}' AC091491.fa > AC091491.tbl - Llargada de la seqüència: awk '{print length($2)}' AC091491.tbl Resultat: 152882 - Contingut de g+c: awk '{print $2}' AC091491.tbl | fold -1 | sort | uniq -c | gawk '{print $2, $1/152882}' Resultats: Adenina: 0.323073 Citosina: 0.200802 Guanina: 0.189257 Timina: 0.286868 Com es pot observar el contingut en A i T és una mica superior al de C i G, igual que en el conjunt del genoma humà. Identificació de les regions repetitives i emmascarament de la seqüència
Bona part del DNA genòmic està constituit per elements repetitius. Per tal d'identificar-los en la nostra seqüència s'ha utilitzat el programa RepeatMasker, a través del servidor EMBL RepeatMasker server , d'on s'ha obtingut el següent quadre que ens mostra el contingut dels diferents elements repetitius.
A més a més amb el RepeatMasker s'ha obtingut:
Podem observar que un 40.22% de la seqüència està formada per elements repetitius. S'ha detectat que els elements LINEs, SINEs i LTR representen aproximadament el 32.5% de la seqüència, valor inferior al 45% que s'observen en el conjunt del genoma. Les regions codificants també es caracteritzen per un contingut més elevat en G i C respecte a regions no codificants; com podem veure en la nostra seqüència aquest contingut és d'un 39 %, però això no descarta la possibilitat de trobar-hi gens. Per tal de visualitzar la distribució d'aquests elements repetitius al llarg de la seqüència a través del programa ghostview, s'ha utilitzat el programma gff2ps, després d'haver transformat el format del output AC091491.seq.out a format gff. Per això hem utilitzat les següents comandes:
- ./gff2ps_v0.98c AC091491.seq.out.gff > AC091491.seq.out.ps - gv AC091491.seq.out.ps
|