El nostre treball es basa en l'anàlisi d' una de les seqüències que formen part del projecte ENCODE, concretament la NT_024524.13. El primer que hem fet és obtenir la seqüència en la base de dades ncbi (NT_024524.13). Tal i com es pot veure els esquemes que segueixen, està localitzada al cromosoma 13 d'Homo sapiens, concretament entre les posicions 11500016-12000015.
Aquesta seqüència està en format fasta, que és el que es necessita per a l'anàlisi que realitzarem. Tanmateix, el format fasta té un símbol ">" a l'inici de la seqüència. Introduïrem aquest símbol usant l'emacs NT_024524.fa .
Una altra manera d'enregistar la seqüència que també serà útil és en format tabular. Per exemple, es pot usar el següent transcrit per obtenir el format tabular:
- awk ' { printf "%s", $0 } '
Li direm seq1.tbl.
A continuació, usarem l'emacs per introduir un tabulador ("t") entre l'identificador i la seqüència propiament dita. Aquest fitxer obtingut serà utilitzat per:
- Calcular la longitud de la seqüència:
- awk '{print lenght($2)} seq1.tbl
- aquesta ordre ens retorna el valor de 500000, que és el nombre de nucleòtids de la nostra seqüència
- Calcular el contingut G+C:
- awk '{print$2}' seq1.tbl | fold -1 | sort | uniq -c | gawk '{print $2, 41/500000}'
- I el resultat obtingut és:
- A : 0,294306
- C : 0,21887
- G : 0,212097
- T : 0,27473
- i el contingut G+C : 43,10 %