Els fitxers en format FASTA són fitxers dels que el seu nom té o més aviat sol tenir, extensió .fa. Aquest format s'utilitza per enregistrar seqüències. Cada seqüència va precedida d'una línia que comença; amb el símbol '>' i segueix una paraula que identificarà la seqüència. A partir de la línia següent anirà enregistrada la seqüència, teòricament trencada en línies de 50, 60 o 70 símbols. Un exemple de fitxer en format FASTA podria ser el següent:
>NM_145865.chr16 ctgcctggagagacatctggccaagttctggtgagcaggaaaaatgtctactcgttacca cactcctctacattttgcagcctccaatggccatgcccactgcgtctcattcctggtcaa ctttggtgccaacatctttgccctggataatgacttacagactccactggatgctgctgc gggggccggctgctttctgctgctcacactgcct >NM_145815.chr19 ccaagtcctctgttctcaaactctgagcccaagggaaccccggccacatctcctccaaac tgggggccccttcatttcccaggtctggatcgattcacttgccgggagagactttttaca actcatctgcagctccgggtgcggttgggggagatagcgaagggtctggcctcgctgtga tctgatttgggattaaaggtttggaaatttaa
Aquesta taula pot estar enregistrada en un fitxer de text com a parells de valors codó-proporció:
GGG 0.01708 GGA 0.01931 GGT 0.01366 GGC 0.02494 GAG 0.03882 GAA 0.02751 GAT 0.02145 GAC 0.02706 GTG 0.02860 GTA 0.00609 GTT 0.01030 GTC 0.01501 GCG 0.00727 GCA 0.01550 ...
Les matrius de pesos estaran enregistrades de forma que cada fila especifiqui els pesos dels nucleòtids d'una posició determinada. El primer valor serà la posició i els següents quatre valors seran els corresponents als nucleòtids, l'ordre dels quals vindrà especificat a la primera línia que començar amb la paraula P0. La última línia estarà formada per la paraula XX seguida de la posició on comença (o acaba) l'exó. Un exemple d'aquest format és la següent matriu de pesos per puntuar senyals de donors a seqüències d'ADN de l'organisme humà:
P0 A C G T 01 0.302 0.483 -0.305 -0.856 02 0.817 -0.667 -0.743 -0.474 03 -1.143 -0.782 1.123 -1.660 04 -9999 -9999 0.000 -9999 05 -9999 -9999 -9999 0.000 06 1.083 -2.097 0.135 -2.246 07 1.032 -1.093 -0.627 -1.111 08 -1.218 -1.479 1.257 -1.534 09 -0.411 -0.358 -0.136 0.492 XX 3
Els fitxers en format GFF són fitxers dels que el seu nom té extensió .gff. El propòsit d'aquest format és proporcionar una forma estàndard d'enregistrar les anotacions generades a partir de seqüències genòmiques. El seu contingut està organitzat en columnes de la següent forma:
seqid source feature start end score strand frame [group]
...
on els valors no poden tenir cap espai tret de l'última columna, que a més és opcional, i estan separats entre ells per una tabulació. La descripció de cadascun dels valors és la següent:
Un exemple de fitxer en format GFF seria el següent:
# # GFF_sample.gff # chr1 geneid Utr 150 500 1 + . "bio gene" chr1 geneid First 300 500 1 + 0 "bio gene" chr1 geneid Internal 750 1000 1 + 0 "bio gene" chr1 geneid Terminal 1250 1550 1 + 1 "bio gene" chr1 geneid Utr 1250 1800 1 + . "bio gene" # chr1 geneid Utr 2600 2880 1 - . "rev gene" chr1 geneid First 2600 2775 1 - 0 "rev gene" chr1 geneid Internal 2350 2500 1 - 1 "rev gene" chr1 geneid Terminal 2230 2250 1 - 0 "rev gene" chr1 geneid Utr 2000 2250 1 - . "rev gene"
Com es pot observar, també és poden incloure línies de comentari que començaran amb el símbol '#'.