En aquesta plana hi trobaràs algunes informacions rellevants per entendre com hem dut a terme el nostre programa, així com els requisits i directrius que s'han de conèixer per tal de poder utilitzar CercaGen.
La difusió de la infraestructura proporcionada per WWW a Internet juntament amb el naixement de sistemes integrats d’accés a les bases de dades en Biologia Molecular (Entrez, Sequence Retrieval System) vàren contribuir a què, des de finals dels anys ’90 una part important de la investigació en Biologia Molecular es realitzi in silico.
El nostre projecte està centrat en la predicció de gens in silico. Utilitzarem mètodes computacionals i estadístics per tractar aquest problema exclusivament a l’ordinador.
Per a la predicció de gens in silico cal abordar dues tasques. En primer lloc, cal predir quins són els fragments de seqüència codificant (exons) dins la seqüència genòmica. Una gran quantitat d’exons candidats és predita i puntuada a partir dels caràcters establerts en la seqüència d’ADN. En segon lloc, caldrà ensamblar els gens a partir dels grups de seqüències dels exons predits amb una pauta de lectura compatible i que no se superposin. La puntuació (score) dels diferents gens predits es calcula en funció de les puntuacions individuals dels exons que s’ensamblen; el gen candidat que obtingui una millor puntuació serà assumit com el que té una major probabilitat de ser codificat per la seqüència d’ADN problema.
Avui en dia cal fer un esforç per acoblar els programes de predicció d’exons amb els programes que ensamblen gens a partir d'aquests exons candidats predits. Nosaltes hem desenvolupat un programa que s’ocupa de la segona part d’aquesta feina (ensamblatge de gens) però la nostra intenció és la de cooperar amb el programa ExonFinding (que s’ocupa de la predicció d’exons en seqüència d’ADN genòmic) per a oferir un paquet integrat de software més útil i potent. De moment però, solament podem oferir-vos el link al seu servidor: Exon Findig WebServer2004.
La puntuació d’un determinat gen s’obté sumant les puntuacions individuals de cadascun dels exons que el formen (clica aquí si vols conèixer els criteris de puntuació d’exons).
El que volem és trobar aquell ensamblatge (el gen) que maximitza la puntuació dins un conjunt d’ensamblatges compatibles amb el model de gen a partir del conjunt d’exons donats. El model de gen és el conjunt de restriccions no contradictòries que assumim a l’hora de realitzar l’ensamblatge entre els exons.
CercaGen permet predir aquell gen (tant en la cadena + com en la cadena - ) que es formarà a partir d'un extens conjunt d'exons predits.
A partir d’un conjunt d'exons dins d'un fitxer de text en format GFF en construeix un altre (en el mateix format) que conté la predicció del gen. Com hem esmentat anteriorment, el gen predit és el producte d'ensamblar les diferents combinacions possibles dels exons introduïts que maximitzen la suma de les puntuacions dels exons.
L’algorisme que hem implementat en CercaGen planteja el problema d’una manera la resolució de la qual resulta senzilla: mentre es va escrutant el conjunt d'exons predits, el gen amb màxima puntuació que acaba en un exó determinat es pot obtenir afegint aquest exó al gen de màxima puntuació d'entre tots els que acaben en l'exó anterior compatible (complint els requisits de pauta de lectura, no solapament, strand...).
Descripció detallada de l’algorisme:
CercaGen està concebut per ser un programa d'enamblatge d'exons. Requereix com a entrada dos fitxers previs: un fitxer en format .gff amb tots els exons que es vulguin avaluar i un altre fitxer amb el model de gen.
CercaGen buscarà la concatenació d'exons de manera que la puntuació resultant sigui màxima. Els exons ecadenats seran compatibles en la pauta de lectura, no es superposaran i compliran el model de gen introduït per l'usuari.
Fes clic aquí per accedir a l'algorisme amb les explicacions detallades.
Aquest programa ha estat realitzat amb l'editor de text EMACS de Linux 2.4 en llenguatge Perl de programació
EXECUCIÓ DES DE UNIX.
L'usuari haurà de cridar el programa, després d'haver-li donat els permisos pertinents, sota el nom de .\CercaGen.pl. A continuació haurà d'especificar els tres arxius següents:
En resum, el comandament que s'haurà d'introduir al shell per a la correcta execució del programa serà quelcom similar a:
$ .\CercaGen.pl exons.gff ModelGen.txt Sortida.gff
En primer lloc, l'usuari ha d'introduir el fitxer que conté tota la col·lecció d'exons predits per un programa dedicat a aquest fi (i.e. Exon Findig WebServer2004.). Aquests fitxers sempre es solen donar en format GFF. És un requisit del nostre programa el fet que aquest arxiu contenedor dels exons predits estigui en format GFF.
En segon lloc caldrà crear un fitxer de text (extensió .txt) on s'expliciti el MODEL de GEN que fixa els criteris respecte els quals es realitzarà la predicció gènica. Aquests criteris especificaran, per una banda el tipus d'exons que es poden concatenar. En l'strand positiu, per exemple, no té sentit concatenar un exó inicial a continuació d'un exó intermig o terminal. Per altra banda s'hauran d'especificar les distàncies màximes i mínimes entre les quals s'estimi que puguin trobar-se dos exons cosecutius. És a dir, s'haurà d'estimar(cadascú en funció de les seves tendències en biologia molecular) quines són les longituds intròniques que separen els exons.
La millor manera de veure com es construeix un model de gen és a través d'un exemple:
first internal 40 10000 first terminal 50 10000 internal internal 33 8000 internal terminal 455 7777 terminal first 400000 50000
Verbalment, el significat d'aquest model seria el següent: "Podem col·locar un exó intermig a continuació d'un exó inicial sempre que estiguin separats a una distància mínima de 40bp i no superior a 10.000bp. Podem col·locar un exó terminal a continuació d'un exó inicial sempre que estiguin separats a una distància mínima de 50bp i no superior a 10.000bp"...etc
EXECUCIÓ DES DEL SERVIDOR:
És molt senzill, només cal utilitzar les dues finestretes per incloure els dos arxius (un amb els exons i l'altre amb el model de gen) sobre els quals volem que es realitzin les prediccions. A continuació prémer "Submit!", deixar que el programa corri i llestos!
Obtindràs informació sobre el seu funcionament en el mateix servidor: CercaGen WebServer.
Cercagen és un programa que es fonamenta en un algorisme de programació dinàmica de complexitat no lineal, la qual cosa implica que el temps de càlcul augmenta exponencialment amb el volum dels fitxers d’exons d’entrada.
Cercagen prediu gens tenint en compte la compatibilitat de frame (pauta de lectura) entre els exons així com la coherència entre les seves respectives coordenades de donor i acceptor per tal d’evitar que es produeixi solapament. També es té en compte el model de gen (modificable) i les separacions mínima i màxima entre els exons fixades prèviament segons el criteri de l’usuari. Cercagen efectua les seves prediccions en base a exons predits en qualsevol de les cadenes d’ADN genòmic, ja sigui en strand positiu o en el negatiu.
Basant-nos en els resultats obtinguts en executar el nostre programa sobre diversos fitxers d’exons, podem dir que la predicció de Cercagen té la mateixa sensibilitat i exactitud que la que duen a terme programes com GeneID o GenScan .
Per als escèptics que no les tinguin totes respecte un projecte desenvolupat per dos individus que en quatre anys de carrera no han aconseguit abandonar el laboratori un sol cop sense haver trencat res abans, oferim a continuació un exemples on contrastem la predicció efectuada per GeneID i la que efectua CercaGen amb l'anotació real del gen TAF-6:
NM_005641 chr7 Utr 1 477 . + . "H.sapiens" NM_005641 chr7 Utr 5089 5147 . + . "H.sapiens" NM_005641 chr7 First 5148 5303 . + . "H.sapiens" NM_005641 chr7 Internal 5403 5489 . + . "H.sapiens" NM_005641 chr7 Internal 5588 5741 . + . "H.sapiens" NM_005641 chr7 Internal 5952 6008 . + . "H.sapiens" NM_005641 chr7 Internal 6440 6559 . + . "H.sapiens" NM_005641 chr7 Internal 7104 7249 . + . "H.sapiens" NM_005641 chr7 Internal 7358 7435 . + . "H.sapiens" NM_005641 chr7 Internal 7528 7629 . + . "H.sapiens" NM_005641 chr7 Internal 8036 8218 . + . "H.sapiens" NM_005641 chr7 Internal 9083 9157 . + . "H.sapiens" NM_005641 chr7 Internal 9284 9409 . + . "H.sapiens" NM_005641 chr7 Internal 10817 10990 . + . "H.sapiens" NM_005641 chr7 Internal 11234 11431 . + . "H.sapiens" NM_005641 chr7 Terminal 11734 12111 . + . "H.sapiens" NM_005641 chr7 Utr 12112 12278 . + . "H.sapiens"
## gff-version 2 ## date Tue Mar 11 12:33:41 2003 ## source-version: geneid v 1.1 -- geneid@imim.es # Sequence NM_005641 - Length = 12278 bps # Optimal Gene Structure. 1 genes. Score = 48.220803 # Gene 1 (Forward). 15 exons. 695 aa. Score = 48.220803 NM_005641 geneid_v1.1 First 12 28 0.97 + 0 NM_005641_1 NM_005641 geneid_v1.1 Internal 5126 5303 7.58 + 1 NM_005641_1 NM_005641 geneid_v1.1 Internal 5403 5489 3.77 + 0 NM_005641_1 NM_005641 geneid_v1.1 Internal 5588 5741 5.63 + 0 NM_005641_1 NM_005641 geneid_v1.1 Internal 5952 6008 0.99 + 2 NM_005641_1 NM_005641 geneid_v1.1 Internal 6440 6559 2.13 + 2 NM_005641_1 NM_005641 geneid_v1.1 Internal 7104 7249 4.32 + 2 NM_005641_1 NM_005641 geneid_v1.1 Internal 7358 7435 1.36 + 0 NM_005641_1 NM_005641 geneid_v1.1 Internal 7528 7629 4.23 + 0 NM_005641_1 NM_005641 geneid_v1.1 Internal 8036 8218 8.71 + 0 NM_005641_1 NM_005641 geneid_v1.1 Internal 9083 9157 0.54 + 0 NM_005641_1 NM_005641 geneid_v1.1 Internal 9284 9409 4.36 + 0 NM_005641_1 NM_005641 geneid_v1.1 Internal 10817 11002 1.30 + 0 NM_005641_1 NM_005641 geneid_v1.1 Internal 11234 11431 0.03 + 0 NM_005641_1 NM_005641 geneid_v1.1 Terminal 11734 12111 2.28 + 0 NM_005641_1
#CercaGen v 1.0 #Tue Mar 16 18:56:54 2004 #Sequence NM_005641. #Found Forward Exons: 14 Score: 47.48 Lenght: 2046 bps #Found Reverse Exons: 1 Score: 1.5 Lenght: 276 bps NM_005641 geneid_v1.1 First 5148 5303 7.83 + 0 NM_005641 geneid_v1.1 Internal 5403 5489 3.77 + 0 NM_005641 geneid_v1.1 Internal 5588 5741 5.63 + 0 NM_005641 geneid_v1.1 Internal 5952 6008 0.99 + 2 NM_005641 geneid_v1.1 Internal 6440 6559 2.13 + 2 NM_005641 geneid_v1.1 Internal 7104 7249 4.32 + 2 NM_005641 geneid_v1.1 Internal 7358 7435 1.36 + 0 NM_005641 geneid_v1.1 Internal 7528 7629 4.23 + 0 NM_005641 geneid_v1.1 Internal 8036 8218 8.71 + 0 NM_005641 geneid_v1.1 Internal 9083 9157 0.54 + 0 NM_005641 geneid_v1.1 Internal 9284 9409 4.36 + 0 NM_005641 geneid_v1.1 Internal 10817 11002 1.30 + 0 NM_005641 geneid_v1.1 Internal 11234 11431 0.03 + 0 NM_005641 geneid_v1.1 Terminal 11734 12111 2.28 + 0 NM_005641 geneid_v1.1 Terminal 8009 8284 1.50 - 0
Es pot apreciar com en aquest cas particular, la predicció que ens dóna CercaGen s'apropa més a l'anotació real que la que ens dóna GeneID.
L'exemple anterior ha estat obtingut amb el següent Model de Gen:
first internal 60 1000 internal internal 45 3000 first terminal 1000 40000 internal terminal 100 3000 terminal first 2000 4000
Aquest lloc web ha estat desenvolupat per dos estudiants de la Facultat de Ciències de la Salut i de la Vida de la Universitat Pompeu Fabra , Barcelona.
xavi.jalencas01@campus.upf.edu
gerard.ill01@campus.upf.edu
Last uptdated: March 2004.