Obtenció de la seqüència de DNA

La seqüència amb la qual es treballa s'ha obtingut descarregant-la a través de la base de dades NCBI . Aquesta base de dades permet obtenir la seqüència directament en fomat fasta .

 

Seguidament, s'ha passat la seqüència a format tabular ( tenint així la seqüència en un únic string) mitjançant la seqüent comanda:

awk '{printf $1}'  cr5.fa > cr5.tbl 

Després s'ha calculat la llargada de la seqüència utilitzant la comanda:

 bash-2.05b$ awk '{print length($2)}' cr5.tbl  

confirmant que conté 500.000 pb.

 

Determinar el contingut de G+C pot ser d'especial interès perquè s'ha vist que aquest és alt en regions on es poden trobar gens. Per fer aquest càlcul s'ha executat la següent comanda:

bash-2.05b$   awk '{print $2}' cr5.tbl | fold -1 | sort | uniq -c | gawk '{print $2, $1/500000}'

Obtenint els següents resultats:

A 0.303724 C 0.201438 G 0.200612 T 0.294226