Conclusions



La finalització d'aquest treball ha permès la identificació de 7 gens i de les seves corresponents proteïnes ( no en tots els casos) dins de la seqüència anònima ENm003 de 0.5 Mb, proporcionada per ENCODE.

Per tal de poder arribar a aquestes conclusions, ha estat necessari l'ús de diferents eines computacionals que permetessin realitzar els diferents passos que s'han anat esmentant.

L'inici d'aquest anàlisi radica en el fet d'emmascarar la seqüència, els seus elements repetitius. Aquest pas permet una major velocitat en tots els passos posteriors ja que disminueix molt el tamany de la seqüència a analitzar.

Concretament, la regió que ens ocupa conté un 41,73% d'elements repetitius, això vol dir que per a fer els analisis posteriors s'ha partit de poc més de la meitat de la seqüència.

Posteriorment a "l'eliminació" d'elements repetitius s'ha procedit a la predicció gènica i exònica dins de la regió esmentada. Això s'ha fet mitjançant l'ús dels diferents programes.

Cal a dir que aquesta predicció ha estat mínimament diferent pels tres programes, ja que mentre que FGenesh en predia 6, Geneid trobava 9 i Genscan 10.

Tot i la diferència en la totalitat de gens predits (cada un usa uns paràmetres i matrius diferents), és important remarcar que hi han hagut alguns gens que han estat igualment predits per als tres programes, des del seu inici fins al final, tot i que en alguns casos les prediccions exòniques no coincidien completament.

Tenint ja els diferents gens predits cal validar-los, és a dir, comprobar com de bones són les diferents prediccions.

Aquest pas requereix de l'ús del programa Megablast, el qual alinia la seqüència "query" proporcionada, amb diferents ESTs ( en aquest cas d'humans) que conté en la seva base de dades.

Amb l'aliniament observat entre la regió anònima i els ESTs es pot acceptar o rebutjar un gen (observant si hi ha un mateix ESTs que s'alinia amb la seqüència ).

La convergència dels tres programes pel que fa a predicció d'alguns gens, ha fet que a l'hora d'escollir la millor, el criteri hagi estat de decidir la feta pel programa que més positius ens hagi donat.

Després de realitzar tots aquests passos per a dur a terme l'elecció definitiva dels gens, es passa al seu posterior anàlisi proteic.

Partint de la seqüència aminoacídica del gen escollit (proporcionada pels diferents programes), es fa una cerca d'homologia amb proteïnes ja conegudes mitjançant l'ús de BLASTP.

En alguns casos la homologia trobada amb proteïnes humanes pot ser baixa, això obliga en algunes ocasions, a dur a terme una cerca d'homologia però amb proteïnes d'altres espècies, per tal de veure si la proteïna que s'esta analitzant és ortòloga a alguna present en aquestes.

En la regió ENm003, això es va fer per a les proteïnes escollides com a 1, 2 i 7, les quals donaven una molt baixa homologia amb proteïnes humanes. Cal a dir, però, que els resultats obtinguts no van ser satisfactoris ja que no van permetre trobar un tant per cent d'identitat gaire superior.

Per a la resta de proteïnes : 3, 4, 5, i 6, els resultats obtinguts van ser molt satisfactoris ja que en tots els casos, la homologia trobada va ser elevada, i al seu torn l'E-value era de 0 o d'un valor molt inferior.

El fet de comprobar en quin cromosoma es trobaven aquestes proteïnes aliniades amb les predites, va ajudar a confirmar que les proteïnes havien estat predites acuradament.

Així doncs, es pot dir amb força seguretat, que la predicció de 4 de les 7 proteïnes va ser força positiva:


La baixa eficiència d'anàlisi tant en la regió N com en la C-terminal de la seqüència anònima, pot ser raonada observant els resultats obtinguts tant per a la predicció de gens com per la validació per ESTs que es va fer (bastant pobre en ambdòs casos).

Es pot concloure, un cop finalitzat el treball, que l'ús de la bioinformàtica per a l'anàlisi de seqüències genòmiques proporciona en general, una bona eina per a conèixer la informació biològica present en una regió del genoma.

Inici