EL FORMAT GFF:
Els fitxer en format GFF reben aquest nom degut a que la seva extensió és .gff. Aquest format pretén proporcionar una forma estàndard d'enregistrar les anotacions generades a partir de seqüències genòmiques.
On els valors no poden tenir cap espai, tret de l'última columna (que és opcional), i estan separats entre sí per una tabulació. La descripció de cada un dels valors és:
Un exemple de fitxer d'entrada en format GFF seria:
## gff-version 2
El seu contingut està organitzat en columnes en la següent estructura:
seqid source feature start end score strand frame [group]
...
seqid.
Identificador de la seqüència a partir de la qual s'ha obtingut l'anotació. En el nostre cas aquesta anotació correspon a la predicció d'un exó.
source.
Origen de l'anotació. En el fitxer d'entrada al nostre programa serà el nom del programa que ha predit els exons. En el fitxer de sortida del nostre programa serà el nom d'aquest: Pregen.
feature.
Tipus d'anotació / exó. En el context del nostre programa utilitzarem: initial (primer exó, extrem 5'), terminal (últim exó, extrem 3') i internal (exó que es troba entre el primer i l'últim).
start.
Posició dins la seqüència on comença l'exó (acceptor). Sempre serà un nombre sencer entre 1 i la longitud de la seqüència. La posició referida ha de ser forçosament més petita o igual que la posició especificada com a end.
end.
Posició dins la seqüència on acaba l'exó (donor). Sempre serà un nombre sencer entre 1 i la longitud de la seqüència.
score.
Puntuació associada a l'exó. Pot ser qualsevol nombre real. És convenient utilitzar un nombre fixe de xifres decimals. Si no hi hagués puntuació associada, hi escriurem el símbol del punt ".".
strand.
Serà el símbol "+" si l'anotació ha estat feta llegint la seqüència de 5' a 3', o el símbol "-" si l'anotació ha estat feta llegint la seqüència de 3' a 5'. Si aquesta informació no és rellevant escriurem el símbol ".".
frame.
Pauta de lectura en la qual s'ha fet l'exó, serà un valor numèric entre 0, 1 i 2. Utilitzarem el símbol del "." quan la pauta de lectura no sigui rellevant.
[group].
Valor opcional que pot estar format per lletres o números i inclús espais. S'acostuma a utilitzar per agrupar anotacions, com ara exons, que pertanyen a un mateix gen. En el nostre programa no tenim en compte aquest paràmetre.
## date Wed Feb 12 17:17:50 2003
## source-version: geneid v 1.1 -- geneid@imim.es
# Sequence NM_006533 - Length = 2019 bps
# Exons(x) predicted in sequence NM_006533: [0,2018]
NM_006533 geneid_v1.1 Internal 2 85 -8.07 + 1
NM_006533 geneid_v1.1 Internal 2 85 -4.72 + 2
NM_006533 geneid_v1.1 First 31 105 -4.73 - 0
NM_006533 geneid_v1.1 First 31 102 -8.09 - 0
NM_006533 geneid_v1.1 Internal 31 146 -8.02 - 2
NM_006533 geneid_v1.1 Internal 31 128 -6.40 - 2
NM_006533 geneid_v1.1 First 39 105 -2.86 - 0
NM_006533 geneid_v1.1 First 39 102 -6.21 - 0
NM_006533 geneid_v1.1 Terminal 39 172 -1.41 - 1
Com es pot observar també es poden incloure línies de comentari que començaran amb el símbol "#".