La seqüència amb la qual es treballa s'ha obtingut descarregant-la a través de la base de dades NCBI . Aquesta base de dades permet obtenir la seqüència directament en fomat fasta .
Seguidament, s'ha passat la seqüència a format tabular ( tenint així la seqüència en un únic string) mitjançant la seqüent comanda:
awk '{printf $1}' cr5.fa > cr5.tbl
Després s'ha calculat la llargada de la seqüència utilitzant la comanda:
bash-2.05b$ awk '{print length($2)}' cr5.tbl
confirmant que conté 500.000 pb.
Determinar el contingut de G+C pot ser d'especial interès perquè s'ha vist que aquest és alt en regions on es poden trobar gens. Per fer aquest càlcul s'ha executat la següent comanda:
bash-2.05b$ awk '{print $2}' cr5.tbl | fold -1 | sort | uniq -c | gawk '{print $2, $1/500000}'Obtenint els següents resultats:
A 0.303724
C 0.201438
G 0.200612
T 0.294226