Obtenció de la seqüència
La seqüència a analitzar, com s'ha dit, és la ENm003 Apo Cluster, un fragment genòmic humà de 500Kb que pertany al braç llarg del cromosoma 11.
Les seves coordenades són chr11:115,994,758-116,494,757.
La seqüència en qüestió va ser obtinguda de la base de dades UCSC genome browser, en format FASTA sense emmascarar. Concretament, es va consultar l'apartat "regions" de la pàgina d' ENCODE i, posteriorment, es va anar a "DNA" i "get DNA in window".
Seqüència ENm003 en format FASTA -> Apo.fa
Un cop obtinguda la seqüència problema, es va procedir a esbrinar quina era la seva longitut, així com les proporcions de cada tipus de nucleòtid.
- Primer de tot, es va passar l'arxiu FASTA a un format on la seqüència es trobava tota tabulada i en una sola línia, amb la comanda:
awk '{printf $1}' Apo.fa > Apo.tbl0
- Posteriorment, se li va treure tota la línia d'informació de nomenclatura que hi havia a l'inici i li se li va afegir el nom de Apo_ , perquè fos més fàcil identificar-la. També es va introduir una tabulació entre la seqüència i el seu nom i es va guardar aquest arxiu tabulat com a : Apo.tbl
- Amb la seqüència tabulada ja es va poder mesurar la seva longitut i es va obtenir que aquesta seqüència conté 500.000 parells de bases. Això es va aconseguir usant la comanda:
awk '{print length($2)}' Apo.tbl
- Una altra comanda que es va utilitzar per confirmar la longitut, i que compta quants nucleòtids hi ha (paraules) en la seqüència FASTA anònima, va ser:
grep -v ">" Apo.fa | fold -1 | wc
- Pel que fa a la quantificació de la proporció dels nucleòtids, es va esbrinar amb la comanda:
awk '{print $2}' Apo.tbl | fold -1 | sort | uniq -c | gawk '{print $2, $1/500000}'
A |
0.299292 |
C |
0.22697 |
T |
0,262858 |
G |
0.21088 |