Glossari
Índex
Compatibilitat de pauta de lectura
Dos exons presenten compatibilitat de pauta de lectura quan el remainder del primer exó és igual al frame del segon exó. Definim el frame d'un exó com el nombre de nucleòtids (0, 1, o 2) que van des del primer nucleòtid de l'exó fins al primer nucleòtid en el primer codó traduït de l'exó quan s'ensambla el gen. D'altra banda, definim el remainder d'un exó com el nombre de nucleòtids que queden (0, 1, o 2) després de que l'últim codó complet ha estat definit a partir de l'exó,donat un frame.
Un exemple senzill d'això seria:
TornaFormat GFF
Els fitxers GFF són fitxers amb l'extensió .gff que tenen com a propòsit principal proporcionar una forma estàndard d'enregistrar les anotacions generades a partir de seqüències genòmiques. El seu contingut s'organitza en columnes de la següent forma:
sequid source feature start end score strand frame [group]
- sequid: identificador de la seqüència a partir de la qual s'obté l'anotació. En el nostre cas aquesta anotació correspon a la predicció d'un exó.
- source: origen de l'anotació, que en el nostre cas, correspon al nom que li hem donat al nostre programa. En uns altres casos podria ser el nom de la base de dades de la qual prové l'anotació.
- feature: nom d'allò que estem anotant o en unes altres paraules, tipus d'anotació. En el context d'aquest treball utilitzarem els següents: termes initial (primer exó, extrem 5'), terminal (últim exó), i internal (exó que es troba entre el primer i l'últim).
- start (posició d'acceptor): posició dins la seqüència on comença l'anotació. Serà sempre un nombre sencer entre 1 i la longitud de la seqüència i la posició referida formarà part de l'anotació. Aquesta posició ha de ser forçosament més petita o igual que a la posició especificada com a end. Això implica que les posicions de les anotacions fetes al strand negatiu han d'estar especificades respecte l'strand positiu.
- end (posició de donnor): posició dins la seqüència on acaba l'anotació. Serà sempre un nombre sencer entre 1 i la longitud de la seqüència.
- score: puntuació associada a l'anotació. Pot ser qualsevol nombre real. És convenient utilitzar un nombre fix de xifres decimals. Si no hi hagués puntuació associada, hi escriurem el símbol del punt '.'.
- strand: serà el símbol + si l'anotació ha estat feta llegint la seqüència de 5' a 3', o el símbol - si l'anotació ha estat feta llegint la seqüència de 3' a 5'. Si aquesta informació no és rellevant, escriurem el símbol del punt '.'.
- frame: pauta de lectura en la qual s'ha fet l'anotació, serà un valor numèric entre 0, 1 i 2. Utilitzarem el símbol del punt quan la pauta de lectura no sigui rellevant. La pauta 0 indicarà que el primer nucleòtid de l'exó ocorre en la primera posició d'un codó. La pauta 1 indicarà que el segon nucleòtid d'un exó ocorre en la primera posició d'un codó. La pauta 2 indicarà que el tercer nucleòtid d'un exó ocorre en la primera posició d'un codó. S'assumeix que el primer codó correspon al codó que determina on comença la pauta oberta de lectura (ORF), és a dir, l'ATG.
- [group]: aquest és un valor opcional, el qual pot estar format per lletres o nombres, i fins i tot espais, i que es sol fer servir per agrupar anotacions, com per exemple, exons que pertanyen a un mateix gen.
Un exemple de fitxer en format GFF seria el següent:
NM_006533 geneid_v1.1 First 65 197 2.08 + 0 NM_006533 geneid_v1.1 Internal 280 413 4.67 + 2 NM_006533 geneid_v1.1 Internal 1497 1607 5.39 + 0 NM_006533 geneid_v1.1 Terminal 1925 1944 0.02 + 0Frame
Definim el frame d'un exó o la pauta de lectura d'un exó com el nombre de nucleòtids (0, 1, o 2) que van des del primer nucleòtid de l'exó fins al primer nucleòtid en el primer codó traduït de l'exó quan s'ensambla el gen. La pauta 0 indicarà que el primer nucleòtid de l'exó ocorre en la primera posició d'un codó. La pauta 1 indicarà que el segon nucleòtid d'un exó ocorre en la primera posició d'un codó. La pauta 2 indicarà que el tercer nucleòtid d'un exó ocorre en la primera posició d'un codó. S'assumeix que el primer codó correspon al codó que determina on comença la pauta oberta de lectura (ORF), és a dir, l'ATG.
TornaModel de gen
A l'hora d'ensamblar un gen, hem de tenir en compte un conjunt donat de restriccions que ens indicaran com podem concatenar els diferents tipus d'exons. D'altra banda cal tenir presents els tipus d'exons que podem tenir (first, internal, terminal). Per exemple, no té sentit ensamblar un gen on el seu primer exó 5' és un exó terminal. Considerarem restriccions que, donats dos exons consecutius, ens determinen quin tipus d'exó pot anar a continuació (downstream) d'un altre tipus, en una distància mínima i màxima. Considerem, per exemple, la restricció (first, internal, 40, 10000), que ens indica que admetem un ensamblatge on un exó intern pot anar consecutivament (downstream) d'un exó inicial a una distància entre 40 i 10000 nucleòtids.
Les possibles combinacions de tipus d'exons que podem tenir són les següents:
- first-internal
- first-terminal
- internal-internal
- internal-terminal
Un model tipus de gen, en principi, estaria format per un primer exó first seguit d'un o més exons internal i un últim exó terminal.
Els gens predits, però, no sempre segueixen aquest model, ja que podem trobar també gens que segueixin altres models, com ara:
L'usuari decideix quines són les combinacions d'exons que vol que el programa utilitzi per a fer la predicció d'un gen, així com també les distàncies entre cada tipus d'exó. Aquesta informació es troba continguda en el fitxer que crea el propi usuari (veure Condicions d'ús) TornaRemainder
Definim el remainder d'un exó com el nombre de nucleòtids que queden (0, 1, o 2) després de que l'últim codó complet ha estat definit a partir de l'exó,donat un frame. El remainder o residu de lectura de l'exó es calcula a partir de la pauta de lectura i la longitud de l'exó, de la següent forma:
       r=(3 - ((l -f) mod3)) mod 3
on l és la longitud de l'exó. Aquesta longitud, assumint que les coordenades d'inici i final són consistents, és a dir, totes dues basades en 0, o basades en 1, la calcularem com:
       l = posició del donor - posició de l'acceptor + 1