PREDICCIÓ DE GENS
A PARTIR D'UN CONJUNT D'EXONS

En aquesta plana hi trobaràs algunes informacions rellevants per entendre com hem dut a terme el nostre programa, així com els requisits i directrius que s'han de conèixer per tal de poder utilitzar CercaGen.

La difusió de la infraestructura proporcionada per WWW a Internet juntament amb el naixement de sistemes integrats d’accés a les bases de dades en Biologia Molecular (Entrez, Sequence Retrieval System) vàren contribuir a què, des de finals dels anys ’90 una part important de la investigació en Biologia Molecular es realitzi in silico.

El nostre projecte està centrat en la predicció de gens in silico. Utilitzarem mètodes computacionals i estadístics per tractar aquest problema exclusivament a l’ordinador.

Per a la predicció de gens in silico cal abordar dues tasques. En primer lloc, cal predir quins són els fragments de seqüència codificant (exons) dins la seqüència genòmica. Una gran quantitat d’exons candidats és predita i puntuada a partir dels caràcters establerts en la seqüència d’ADN. En segon lloc, caldrà ensamblar els gens a partir dels grups de seqüències dels exons predits amb una pauta de lectura compatible i que no se superposin. La puntuació (score) dels diferents gens predits es calcula en funció de les puntuacions individuals dels exons que s’ensamblen; el gen candidat que obtingui una millor puntuació serà assumit com el que té una major probabilitat de ser codificat per la seqüència d’ADN problema.

Avui en dia cal fer un esforç per acoblar els programes de predicció d’exons amb els programes que ensamblen gens a partir d'aquests exons candidats predits. Nosaltes hem desenvolupat un programa que s’ocupa de la segona part d’aquesta feina (ensamblatge de gens) però la nostra intenció és la de cooperar amb el programa ExonFinding (que s’ocupa de la predicció d’exons en seqüència d’ADN genòmic) per a oferir un paquet integrat de software més útil i potent. De moment però, solament podem oferir-vos el link al seu servidor: Exon Findig WebServer2004.

Descripció del Programa

Torna

La puntuació d’un determinat gen s’obté sumant les puntuacions individuals de cadascun dels exons que el formen (clica aquí si vols conèixer els criteris de puntuació d’exons).

El que volem és trobar aquell ensamblatge (el gen) que maximitza la puntuació dins un conjunt d’ensamblatges compatibles amb el model de gen a partir del conjunt d’exons donats. El model de gen és el conjunt de restriccions no contradictòries que assumim a l’hora de realitzar l’ensamblatge entre els exons.

CercaGen permet predir aquell gen (tant en la cadena + com en la cadena - ) que es formarà a partir d'un extens conjunt d'exons predits.

A partir d’un conjunt d'exons dins d'un fitxer de text en format GFF en construeix un altre (en el mateix format) que conté la predicció del gen. Com hem esmentat anteriorment, el gen predit és el producte d'ensamblar les diferents combinacions possibles dels exons introduïts que maximitzen la suma de les puntuacions dels exons.

L’algorisme que hem implementat en CercaGen planteja el problema d’una manera la resolució de la qual resulta senzilla: mentre es va escrutant el conjunt d'exons predits, el gen amb màxima puntuació que acaba en un exó determinat es pot obtenir afegint aquest exó al gen de màxima puntuació d'entre tots els que acaben en l'exó anterior compatible (complint els requisits de pauta de lectura, no solapament, strand...).

Descripció detallada de l’algorisme:

CercaGen està concebut per ser un programa d'enamblatge d'exons. Requereix com a entrada dos fitxers previs: un fitxer en format .gff amb tots els exons que es vulguin avaluar i un altre fitxer amb el model de gen.

CercaGen buscarà la concatenació d'exons de manera que la puntuació resultant sigui màxima. Els exons ecadenats seran compatibles en la pauta de lectura, no es superposaran i compliran el model de gen introduït per l'usuari.

Fes clic aquí per accedir a l'algorisme amb les explicacions detallades.

Condicions d'ús del programa

Torna

Aquest programa ha estat realitzat amb l'editor de text EMACS de Linux 2.4 en llenguatge Perl de programació

EXECUCIÓ DES DE UNIX.

Comandaments des del shell:

L'usuari haurà de cridar el programa, després d'haver-li donat els permisos pertinents, sota el nom de .\CercaGen.pl. A continuació haurà d'especificar els tres arxius següents:

Arxiu de partida que conté el conjunt d'exons predits. Ex: exons.gff

Arxiu (construït per l'usuari) amb el Model de Gen desitjat. Ex: ModelGen.txt

Arxiu de sortida on s'emmagatzemaran els resultats dels càlculs efectuats pel programa. Aquests resultats a més de guardar-se en aquest arxiu especificat també es visualitzaran per pantalla en executar-se el programa. Ex: Sortida.gff

En resum, el comandament que s'haurà d'introduir al shell per a la correcta execució del programa serà quelcom similar a:
$ .\CercaGen.pl exons.gff ModelGen.txt Sortida.gff
Entrada de dades

En primer lloc, l'usuari ha d'introduir el fitxer que conté tota la col·lecció d'exons predits per un programa dedicat a aquest fi (i.e. Exon Findig WebServer2004.). Aquests fitxers sempre es solen donar en format GFF. És un requisit del nostre programa el fet que aquest arxiu contenedor dels exons predits estigui en format GFF.
En segon lloc caldrà crear un fitxer de text (extensió .txt) on s'expliciti el MODEL de GEN que fixa els criteris respecte els quals es realitzarà la predicció gènica. Aquests criteris especificaran, per una banda el tipus d'exons que es poden concatenar. En l'strand positiu, per exemple, no té sentit concatenar un exó inicial a continuació d'un exó intermig o terminal. Per altra banda s'hauran d'especificar les distàncies màximes i mínimes entre les quals s'estimi que puguin trobar-se dos exons cosecutius. És a dir, s'haurà d'estimar(cadascú en funció de les seves tendències en biologia molecular) quines són les longituds intròniques que separen els exons.
La millor manera de veure com es construeix un model de gen és a través d'un exemple:
```
	               first internal 40 10000
		       first terminal 50 10000
		       internal internal 33 8000
		       internal terminal 455 7777
                       terminal first   400000  50000
                                                              
```
Verbalment, el significat d'aquest model seria el següent: "Podem col·locar un exó intermig a continuació d'un exó inicial sempre que estiguin separats a una distància mínima de 40bp i no superior a 10.000bp. Podem col·locar un exó terminal a continuació d'un exó inicial sempre que estiguin separats a una distància mínima de 50bp i no superior a 10.000bp"...etc
EXECUCIÓ DES DEL SERVIDOR:
És molt senzill, només cal utilitzar les dues finestretes per incloure els dos arxius (un amb els exons i l'altre amb el model de gen) sobre els quals volem que es realitzin les prediccions. A continuació prémer "Submit!", deixar que el programa corri i llestos!
Obtindràs informació sobre el seu funcionament en el mateix servidor: CercaGen WebServer.

Conclusions i resultats

Torna

Cercagen és un programa que es fonamenta en un algorisme de programació dinàmica de complexitat no lineal, la qual cosa implica que el temps de càlcul augmenta exponencialment amb el volum dels fitxers d’exons d’entrada.

Cercagen prediu gens tenint en compte la compatibilitat de frame (pauta de lectura) entre els exons així com la coherència entre les seves respectives coordenades de donor i acceptor per tal d’evitar que es produeixi solapament. També es té en compte el model de gen (modificable) i les separacions mínima i màxima entre els exons fixades prèviament segons el criteri de l’usuari. Cercagen efectua les seves prediccions en base a exons predits en qualsevol de les cadenes d’ADN genòmic, ja sigui en strand positiu o en el negatiu.

Basant-nos en els resultats obtinguts en executar el nostre programa sobre diversos fitxers d’exons, podem dir que la predicció de Cercagen té la mateixa sensibilitat i exactitud que la que duen a terme programes com GeneID o GenScan .

Per als escèptics que no les tinguin totes respecte un projecte desenvolupat per dos individus que en quatre anys de carrera no han aconseguit abandonar el laboratori un sol cop sense haver trencat res abans, oferim a continuació un exemples on contrastem la predicció efectuada per GeneID i la que efectua CercaGen amb l'anotació real del gen TAF-6:

Anotació real del gen:

 
NM_005641	chr7	Utr	1	477	.	+	.	"H.sapiens"
NM_005641	chr7	Utr	5089	5147	.	+	.	"H.sapiens"
NM_005641	chr7	First	5148	5303	.	+	.	"H.sapiens"
NM_005641	chr7	Internal	5403	5489	.	+	.	"H.sapiens"
NM_005641	chr7	Internal	5588	5741	.	+	.	"H.sapiens"
NM_005641	chr7	Internal	5952	6008	.	+	.	"H.sapiens"
NM_005641	chr7	Internal	6440	6559	.	+	.	"H.sapiens"
NM_005641	chr7	Internal	7104	7249	.	+	.	"H.sapiens"
NM_005641	chr7	Internal	7358	7435	.	+	.	"H.sapiens"
NM_005641	chr7	Internal	7528	7629	.	+	.	"H.sapiens"
NM_005641	chr7	Internal	8036	8218	.	+	.	"H.sapiens"
NM_005641	chr7	Internal	9083	9157	.	+	.	"H.sapiens"
NM_005641	chr7	Internal	9284	9409	.	+	.	"H.sapiens"
NM_005641	chr7	Internal	10817	10990	.	+	.	"H.sapiens"
NM_005641	chr7	Internal	11234	11431	.	+	.	"H.sapiens"
NM_005641	chr7	Terminal	11734	12111	.	+	.	"H.sapiens"
NM_005641	chr7	Utr	12112	12278	.	+	.	"H.sapiens"

Predicció efectuada per GeneID :


## gff-version 2
## date Tue Mar 11 12:33:41 2003
## source-version: geneid v 1.1 -- geneid@imim.es
# Sequence NM_005641 - Length = 12278 bps
# Optimal Gene Structure. 1 genes. Score = 48.220803 
# Gene 1 (Forward). 15 exons. 695 aa. Score = 48.220803 
NM_005641	geneid_v1.1	First	12	28	 0.97	+	0	NM_005641_1
NM_005641	geneid_v1.1	Internal	5126	5303	 7.58	+	1	NM_005641_1
NM_005641	geneid_v1.1	Internal	5403	5489	 3.77	+	0	NM_005641_1
NM_005641	geneid_v1.1	Internal	5588	5741	 5.63	+	0	NM_005641_1
NM_005641	geneid_v1.1	Internal	5952	6008	 0.99	+	2	NM_005641_1
NM_005641	geneid_v1.1	Internal	6440	6559	 2.13	+	2	NM_005641_1
NM_005641	geneid_v1.1	Internal	7104	7249	 4.32	+	2	NM_005641_1
NM_005641	geneid_v1.1	Internal	7358	7435	 1.36	+	0	NM_005641_1
NM_005641	geneid_v1.1	Internal	7528	7629	 4.23	+	0	NM_005641_1
NM_005641	geneid_v1.1	Internal	8036	8218	 8.71	+	0	NM_005641_1
NM_005641	geneid_v1.1	Internal	9083	9157	 0.54	+	0	NM_005641_1
NM_005641	geneid_v1.1	Internal	9284	9409	 4.36	+	0	NM_005641_1
NM_005641	geneid_v1.1	Internal	10817	11002	 1.30	+	0	NM_005641_1
NM_005641	geneid_v1.1	Internal	11234	11431	 0.03	+	0	NM_005641_1
NM_005641	geneid_v1.1	Terminal	11734	12111	 2.28	+	0	NM_005641_1

Predicció efectuada per Cercagen :


#CercaGen v 1.0
#Tue Mar 16 18:56:54 2004
#Sequence NM_005641.
#Found Forward Exons: 14		Score: 47.48	Lenght: 2046 bps
#Found Reverse Exons: 1		Score: 1.5	Lenght: 276 bps

NM_005641	geneid_v1.1	First	5148	5303	 7.83	+	0		
NM_005641	geneid_v1.1	Internal	5403	5489	 3.77	+	0		
NM_005641	geneid_v1.1	Internal	5588	5741	 5.63	+	0		
NM_005641	geneid_v1.1	Internal	5952	6008	 0.99	+	2		
NM_005641	geneid_v1.1	Internal	6440	6559	 2.13	+	2		
NM_005641	geneid_v1.1	Internal	7104	7249	 4.32	+	2		
NM_005641	geneid_v1.1	Internal	7358	7435	 1.36	+	0		
NM_005641	geneid_v1.1	Internal	7528	7629	 4.23	+	0		
NM_005641	geneid_v1.1	Internal	8036	8218	 8.71	+	0		
NM_005641	geneid_v1.1	Internal	9083	9157	 0.54	+	0		
NM_005641	geneid_v1.1	Internal	9284	9409	 4.36	+	0		
NM_005641	geneid_v1.1	Internal	10817	11002	 1.30	+	0		
NM_005641	geneid_v1.1	Internal	11234	11431	 0.03	+	0		
NM_005641	geneid_v1.1	Terminal	11734	12111	 2.28	+	0		

NM_005641	geneid_v1.1	Terminal	8009	8284	 1.50	-	0

Es pot apreciar com en aquest cas particular, la predicció que ens dóna CercaGen s'apropa més a l'anotació real que la que ens dóna GeneID.

L'exemple anterior ha estat obtingut amb el següent Model de Gen:


first internal 60 1000
internal internal 45 3000
first terminal 1000 40000
internal terminal 100 3000
terminal first 2000 4000

Referències

Torna

Guigó, R., 1998. Assembling Genes from Predicted Exons in Linear Time with Dynamic Programming. J. Comput. Biol.; 5(4): 681-702.

Torna a la pàgina principal

Aquest lloc web ha estat desenvolupat per dos estudiants de la Facultat de Ciències de la Salut i de la Vida de la Universitat Pompeu Fabra , Barcelona.

xavi.jalencas01@campus.upf.edu

gerard.ill01@campus.upf.edu

Last uptdated: March 2004.

PREDICCIÓ DE GENSA PARTIR D'UN CONJUNT D'EXONS

Introducció

Descripció del Programa

Condicions d'ús del programa

Conclusions i resultats

Referències

PREDICCIÓ DE GENS
A PARTIR D'UN CONJUNT D'EXONS