Obtenció de la seqüència de DNA

El nostre treball es basa en l'anàlisi d' una de les seqüències que formen part del projecte ENCODE, concretament la NT_024524.13. El primer que hem fet és obtenir la seqüència en la base de dades ncbi (NT_024524.13). Tal i com es pot veure els esquemes que segueixen, està localitzada al cromosoma 13 d'Homo sapiens, concretament entre les posicions 11500016-12000015.

Aquesta seqüència està en format fasta, que és el que es necessita per a l'anàlisi que realitzarem. Tanmateix, el format fasta té un símbol ">" a l'inici de la seqüència. Introduïrem aquest símbol usant l'emacs NT_024524.fa .
Una altra manera d'enregistar la seqüència que també serà útil és en format tabular. Per exemple, es pot usar el següent transcrit per obtenir el format tabular:

- awk ' { printf "%s", $0 } '
Li direm seq1.tbl.
A continuació, usarem l'emacs per introduir un tabulador ("t") entre l'identificador i la seqüència propiament dita. Aquest fitxer obtingut serà utilitzat per:

Calcular la longitud de la seqüència:

awk '{print lenght($2)} seq1.tbl
aquesta ordre ens retorna el valor de 500000, que és el nombre de nucleòtids de la nostra seqüència

Calcular el contingut G+C:

awk '{print$2}' seq1.tbl | fold -1 | sort | uniq -c | gawk '{print $2, 41/500000}'
I el resultat obtingut és:

A : 0,294306

C : 0,21887

G : 0,212097

T : 0,27473

i el contingut G+C : 43,10 %