AMB QUINES DADES TREBALLAREM?
Partim d'un conjunt d'exons (E= { ei | i pertany a I }, on I és un conjunt d'índexos que ens permeten distingir entre els diferents exons del conjunt, i on cadascun d'ells el podem descriure fonamentalment com la tupla:
On els elements de la tupla es corresponen amb:
t = Tipus d'exó: first, internal o terminal (feature en el format GFF)
a = Acceptor (posició de l'extrem 5' de l'exó que es troba dins la senyal d'acceptor; és a dir: l'inici de l'exó).(start en el format GFF).
d = Donor (posició de l'extrem 3' de l'exó que es troba dins la senyal de donor; és a dir: el final de l'exó). (end en el format GFF).
s = Puntuació de l'exó (score en el format GFF)
f = Pauta de lectura de l'exó (frame en el format GFF)
e = Residu de lectura de l'exó (remainder en el format GFF). El residu es calcula a partir de la pauta de lectura i la longitud de l'exó:
s = Puntuació de l'exó. (score en el format GFF).
En el nostre programa no tindrem en compte el seqid ni el source que es tenen en compte en el format GFF. En la tupla tampoc tindrem en compte l'strand ja que la primera condició només acceptarà els exons de la cadena +.
L'ensamblatge d'un gen és una seqüència ordenada dels membres d'un subconjunt dels exons en E i ho denotarem com:
ei=( t , a , d , s , f , r )
A l'hora d'ensamblar un gen tindrem en compte un conjunt donat de restriccions que ens indicaran com podem concatenar els diferents tipus d'exons. Per exemple, no té sentit ensamblar un gen on el seu primer exó sigui terminal. Considerem ,doncs, restriccions que, donats dos exons consecutius, determinin quin tipus d'exó pot anar a continuació de l'altre.