Obtenció de la seqüència de DNA

La seqüència amb la qual es treballa s'ha obtingut descarregant-la a través de la base de dades NCBI . Aquesta base de dades permet obtenir la seqüència directament en fomat fasta .

Seguidament, s'ha passat la seqüència a format tabular ( tenint així la seqüència en un únic string) mitjançant la seqüent comanda:

awk '{printf $1}'  cr5.fa > cr5.tbl

Després s'ha calculat la llargada de la seqüència utilitzant la comanda:

 bash-2.05b$ awk '{print length($2)}' cr5.tbl

confirmant que conté 500.000 pb.

Determinar el contingut de G+C pot ser d'especial interès perquè s'ha vist que aquest és alt en regions on es poden trobar gens. Per fer aquest càlcul s'ha executat la següent comanda:

bash-2.05b$   awk '{print $2}' cr5.tbl | fold -1 | sort | uniq -c | gawk '{print $2, $1/500000}'
Obtenint els següents resultats:  
A 0.303724
C 0.201438
G 0.200612
T 0.294226