Abstract
En aquest treball s'intenta caracteritzar una regió del cromosoma 3 a partir d'una seqüència de DNA obtinguda en el projecte de seqüenciació del genoma humà.
Les eines utilitzades per desenvolupar aquest anàlisi són un seguit de programes de biocomputació disponibles a internet.
En primer lloc s'han localitzat les regions repetitives per tal d'emmascarar la seqüència. Deprés s'han utilitzat diferents programes de predicció de gens. Per reforçar aquestes prediccions s'han estudiat les homologies amb ESTs. Finalment, a patir de l'anàlisi dels resultats obtinguts s'han predit una sèrie d'exons, i s'ha estudiat la regió upstream del primer exó obtingut per tal d'intentar identificar la regió reguladora del gen.
Adenina 45202 0.3053 Citosina 33108 0.2256 Guanina 29905 0.2020 Timidina 39852 0.2692Com es pot observar el contingut en A i T és una mica superior al de C i G, igual que en el conjunt del genoma humà.
Identificació dels elements de repetició
Degut al fet que només una petita part del genoma és regió codificant i que molt bona part està formada per regions repetitives, per poder fer un estudi de les regions gèniques de la seqüència és interessant localitzar en primer lloc els element repetitius.
S'ha enviat la seqüència en format fasta al servidor del EMBL RepeatMasker. Aquest programa d'identificació de regions repetitives retorna els resultats en forma de tres fitxers.
En el primer fitxer de sortida, repmask.out, hi ha una llista amb tots els elements repetitius ordenats per ordre d'aparició. També hi ha la informació sobre el tipus d'element repetitiu trobat, la seva localització concreta i el seu score (entre altres paràmetres). Aquest fitxer de sortida és el que s'ha utilitzat per veure les localitzacions del elements repetitius en la seqüència de forma gràfica. Per obtenir la imatge s'ha reorganitzat l'arxiu per tenir-lo en format gff (per comandes awk), i després s'ha introduït en el programa gff2ps que prèviament s'ha instal·lat localment.
FIG 1. Alineament de les seqüències repetitives.
És molt difícil interpretar la informació obtinguda a partir del fitxer anterior tot i que gràficament podem observar que hi ha una zona entre 15000 i 60000 parells de bases on hi ha acumulació d'elements ALU (correpon a la línia 6 a partir del final). El fet que en el genoma humà es correlacioni abundància d'elements ALUs i regions codificants suggereix que podria haver-hi una regió exònica en aquest segment de la seqüència.
El segon fitxer obtingut pel RepeatMasker és una recopilació de la informació en forma de taula:
number of elements* length occupied percentagef of sequence
SINEs: 69 14253 bp 9.63 %
ALUs 35 8971 bp 6.06 %
MIRs 34 5282 bp 3.57 %
LINEs: 52 16836 bp 11.37%
LINE1 23 9737 bp 6.58 %
LINE2 29 7099 bp 4.79 %
L3/CR1 0 0 bp 0.00 %
LTR elements: 23 9189 bp 6.21 %
MaLRs 14 6525 bp 4.41 %
ERVL 5 1652 bp 1.12 %
ERV_classI 2 601 bp 0.41 %
ERV_classII 0 0 bp 0.00 %
DNA elements: 33 7699 bp 5.20 %
MER1_type 27 5845 bp 3.95 %
MER2_type 3 1600 bp 1.08 %
Unclassified: 0 0 bp 0.00 %
Total interspersed repeats: 47977 bp 32.40%
Small RNA: 0 0 bp 0.00 %
Satellites: 0 0 bp 0.00 %
Simple repeats: 29 2211 bp 1.49 %
Low complexity: 19 836 bp 0.56 %
* most repeats fragmented by insertions or deletions have been counted as one element
S'ha detectat que els elements LINEs, SINEs i LTR representen aproximadament el 32,40% de la seqüència problema, valor inferior al 45% que s'observen en el conjunt del genoma. Entre aquests tipus d'elements repetitius podem destacar un contingut de 6.06% d'elements ALUs, que com s'ha comentat anteriorment estan principalment agrupats en una regió.
Les regions codificants també es caracteritzen per un contingut més elevat en G i C respecte a regions no codificants. El document obtingut del Repeatmasker també mostra el contingut en G i C de la seqüència i correspon al 42.55 %. Aquest fet no contradiu la possibilitat que aquesta seqüència tan llarga pogui contenir gens.
Finalment el tercer arxiu obtingut és la seqüència emmascarada en format fasta que posteriorment serà utilitzada en programes de predicció de gens.
Geneid
El primer que s'ha fet és instal.lar el programa
geneid localment per tal d'obtenir els resultats de forma més ràpida.
S'ha fet córrer la seqüència emmascarada i sense emmascarar en format FASTA.
Els resultats han estat obtinguts en format gff per la seqüència emmascarada i la no emmascarada. Aquest format permet visualitzar les prediccions a través del programa ghostview gràcies a la transformació amb el programa gff2ps. A més, també s'han extret els resultats en format txt que permet visualitzar, entre altres coses, la seqüència d'aminoàcids predita.
Genscan
Per córrer la seqüència en aquest programa s'ha accedit al servidor del genscan i s'ha fet un "paste" en format FASTA deixant els paràmetres que es seleccionen per defecte.
Els resultats s'han obtingut en format txt.
Per tal de visualitzar les prediccions obtingudes amb el programa ghostview s'han reformatejat els fitxers txt de la seqüència (emmascarada i sense emmascarar) en format gff amb un seguit de comandes en llenguatge awk.
MetaGene
El MetaGene es un servidor que et permet córrer diferents programes de predicció de gens a la vegada. Un cop accedit al servidor del MetaGene es fa un "paste" de la seqüència a estudiar (també en format FASTA) i s'ecullen els programes de predicció de gens que es volen utilitzar. En aquest estudi s'han utilitzat tots els programes excepte els ja esmentats en paràgrafs anteriors (geneid i genscan).
Només s'han obtingut resultats a través dels programes Grail i GenMark (en format txt). Aquests programes no han predit estructures gèniques, sinó que només han predit possibles regions codificants sense relacionar-les entre elles. Per aquest motiu, no s'ha cregut convenient d'estudiar la seqüència en la seva forma emmascarada i sense emmascarar, sinó que només s'ha estudiat la seqüència sense tenir en compte totes les regions repetitives de DNA. Per tant, només s'ha reformatejat a gff la sortida dels programes Grail i GeneMark de la seqüència emmascarada.
Un cop recollides totes les sortides dels programes de predicció de gens, s'analitza si els diferents programes localitzen les estructures gèniques en les mateixes posicions de la seqüència estudiada.
Per desenvolupar aquest pas s'han necessitat els següents programes:
-gff2ps (programa que permet passar de format gff a format postcript -ps-)
-Ghostview (programa que permet visualitzar com s'aparellen diferents regions de DNA amb la seqüència a estudiar a partir de fitxers en format ps)
FIG 2. Comparació dels resultats obtinguts a partir dels programes geneid, genscan, Grail, GeneMark per la seqüència emmascarada.
Al comparar les prediccions obtingudes amb el geneid, genscan, Grail i GeneMark s'observa que els diferents programes no coincideixen a l'hora de predir exons. El Grail i el GeneMark prediuen regions codificants en zones que no es suporten en cap dels altres programes de predicció de gens. En canvi, es detecte que tant el geneid com el genscan comparteixen algunes de les prediccions. Per fer una millor comparació d'aquestes regions codificants compartides s'ha fet una visualització excloent els programes Grail i GeneMark que no reforçen cap predicció.
FIG 3. Comparació dels resultats obtinguts a partir dels programes geneid i genscan per la seqüència emmascarada i sense emmascarar.
El programa genscan prediu estructures exòniques en sentit directe i revers.
En sentit directe prediu 3 gens tant en la seqüència emmascarada com en la no emmascarada, però l'estructura exònica d'aquests gens predits en tots dos casos no segueix exactament el mateix patró.
En sentit revers s'observen més diferències en funció de si s'analitza la seqüència emmascarada o sense emmascarar. En el primer cas, es prediuen 2 gens: el primer està format per 9 exons (3 dels quals tenen bastanta força i també són predits en la seqüència sense emmascarar) i l'altre només conté un exó de poca força. Mentre que en el segon cas, es perdiuen 4 gens diferents.
El programa geneid prediu estructures exòniques en sentit directe i revers, tot i que en sentit directe només detecta un exó de poca força al analitzar la seqüència no emmascarada.
En sentit revers les prediccions fetes en la seqüència emmascarada i no emmascarada són pràcticament equivalents, tot i que en cada cas els mateixos exons estiguin agrupats en gens diferents.
Al analitzar el gràfic de forma global s'observa que hi ha 3 possibles regions codificants en sentit revers que surten en la majoria de prediccions. Aquest fet suggereix l'existència de 3 exons que podrien formar part d'un gen. En canvi, en sentit directe no s'observa cap estructura codificant reforçada per tots els programes, per això s'assumeix que és poc probable de trobar un gen en aquest sentit.
Amb els programes de predicció de gens utilitzats, es pot formular una primera hipòtesi d'on es localitzen les regions codificants contingudes en la seqüència AC010727. Aquesta hipòtesi prediu que la regió genòmica estudiada conté un gen en sentit revers format per 3 exons.
Degut a que la predicció del programa geneid amb la seqüència emmascarada és la que s'aproxima més a aquesta primera hipòtesi formulada, a partir d'ara es treballarà amb la la seqüència AC10727 emmascarada, i l'estudi es basarà amb els resultats obtinguts a partir del programa geneid.
Validació de la predicció de gens
El següent pas és validar el patró exònic trobat fins al moment i intentar identificar possibles exons no reconeguts amb els programes de predicció de gens utilitzats.
Aquest pas es desenvolupa amb l'ajuda del MEGABLAST que es tracte d'un programa que aparella totes les possibles seqüències emmagatzemades en la Base de Dades seleccionada amb la seqüència problema.
S'accedeix al servidor ncbi blast i es selecciona la opció "MEGABLAST" on es fa un "paste" de la seqüència estudiada amb el paràmetre base de dades de EST humans.
El resultat obtingut es tot un llistat dels EST (expressed sequence tag) humans continguts en la Base de Dades seleccionada que s'aparellen amb la nostra seqüència.
Els EST són petites seqüències de RNAm que han estat seqüenciades un cop s'han passat a cDNA per retrotranscripció. Per tant, aquests alineaments aporten informació de possibles regions codificants.
Si els EST trobats pel programa Megablast s'aparellen en aquelles regions de la seqüència estudiada on s'han predit els 3 exons, s'obtindrà un reforçament de la hipòtesi formulada.
Per analitzar els aparellaments obtinguts es visualitza amb el programa ghostview que només pot llegir fitxers en format ps. Per aquest motiu es reformateja la sortida del programa Metablast en gff. Aquesta transformació es pot fer amb un programa en perl com parseblast programat per Josep Abril. Amb el fitxer en gff es passa a format ps a través del programa gff2ps.
Es pot veure que hi ha un gran nombre d'ESTs que s'aparellen amb la seqüència estudiada. La major part d'aquests s'han aparellat en forma d'splicing, és a dir que diferents regions del EST s'han aparellat en diferents regions de la seqüència. Però també es pot veure un gran nombre d'ESTs dispersats al llarg de la seqüència de forma aïllada, possiblement es tracte d'artefactes que es produeixen durant la construcció de les biblioteques d'ESTs. Per aquest motiu i pel fet que, en general, només es consideren bones evidències de l'existència de gens els ESTs que provenen de RNAtp que han passat per splicing, aquest anàlisi es centrerà en els spliced ESTs.
Un altre factor que s'ha de tenir en compte quan es treballa amb ESTs és si es tracta de EST 3 prima o EST 5 prima. La majoria dels ESTs obtinguts estan anotats a la base de dades com a 3 prima. En canvi, aquells ESTs que s'alinien en 4 regions són 5 prima. El problema és que en una mateixa regió
s'hi han aparellat tan ESTs 5 prima com ESTs 3 prima. A més, ESTs que coincideixen en el patró d'aparellament tenen anotacions contràries. Per aquestes raons es sospita que hi ha un mal anotament dels EST. Per comprovar que es tracta d'un error s'ha fet un alineament entre dos ESTs que coincideixen en patró i divergeixen en anotació amb el CLUSTALW. Com era d'esperar s'ha obtingut un alineament amb un score elevat (98% d'alineament). Per aquest fet en la resta de l'estudi no es tindrà en compte les anotacions dels ESTs. Aquests errors poden ser causats pel fet que el RNA estigués degradat en el moment que es va començar a seqüenciar per 3 prima.
Per tal de desfer-nos dels ESTs que no són interessants per l'anàlisi, s'aplica al fitxer gff un programa per eliminar tots aquells que només s'aparellen una vegada. A més a més, s'ha introduït el sentit de l'aparellament. Al visualitzar aquests resultats (document no mostrat) es destaca que la gran majoria dels EST s'aparellen amb la seqüència reverse, per això també s'ha decidit elimiar del fitxer gff els EST forward.
De tots els EST que queden deprés d'aquesta primera selecció es destaca que hi ha 8 patrons d'aparellament diferents. S'ha agafat de forma aleatòria un representant de cada patró per poder tenir una millor visualització com es pot veure a la figura 4.
FIG 4. Visualització dels 8 patrons d'ESTs i de les prediccions del geneid (reverse strand).
La major part dels EST es troben agrupats en 4 grans regions (dades corresponents al EST AL561563):
-31133 a 31244
-55612 a 55798
-115486 a 115632
-135197 a 135410
Les 3 primeres s'aparellen a les mateixes posicions que els 3 exons de la Hipòtesi formulada reforçant-la. Però a més a més es pot obsevar que la quarta regió està molt suportada pel conjunt dels EST i que es correspon amb una regió predita pel genscan amb la seqüència no emmascarada. Per aquesta raó s'ha decidit de buscar, a la base de dades del ncbi, les seqüències dels EST per fer un aparellament de manera més acurada amb el programa est2genome. Els resultats obtinguts han estat reveladors, ja que patrons de només dos aparellaments han trobat noves regions d'homologia. D'aquesta manera alguns del 8 patrons seleccionats anteriorment han desaparegut per convertir-se en algun dels altres. A més d'aquests 8 ESTs se n'han analitzat més per assegurar que no ha estat una quüestió d'atzar, i s'han repetit els mateixos resultats.
FIG 5. Visualització dels patrons d'ESTs obtinguts amb el est2genome i de les prediccions del geneid (reverse strand) .
En aquest moment s'ha decidit de tornar a passar la seqüència problema al programa geneid introduïnt evidències d'homologia en la regió que aquest programa no havia predit cap estructura exònica amb un score suficientment significatiu. Aquest pas es fa per veure si, d'aquesta manera, el geneid prediu un gen que englobi les 4 regions codificants evidenciades pels ESTs.
FIG 6. Visualització del geneid amb evidències de similaritat, el genscan sense emmascarar i els aparellaments dels EST obtinguts amb el est2genome.
Tal com es volia el geneid ha predit les quatre regions codificants, però es pot observar que continua predint dos exons més.
També es pot veure que el fet d'afegir aquesta evidència ha provocat una disminució important de la força de tots els altres exons.
A partir de tots els resultats del programes de predicció de gens i els reforçaments dels ESTs es pot formular la hipòtesi de quatre regions codificants que formarien part d'un sol gen (sense confirmació). En canvi es desconeix si aquest gen predit està format exclusivament per aquests quatre exons, o es tracta d'un gen més llarg que está clonat en diferents BACs contigs, de manera que la seqüència estudiada només contindria el principi, el final, o un fragment intern del gen.
A partir dels resultats anteriors no es pot dir que el primer exó obtingut en la regió 5 prima de la seqüència reverse sigui un start, a més a més aquest és l'exó que està menys sostingut per les prediccions i un cop corregut el geneid amb evidències tampoc apareix com a primer exó.
S'ha fet un blastp amb la seqüència d'aminoàcids obtinguda a partir de les prediccions del geneid. El resultat obtingut és l'existència d'una proteïna hipotètica anomenada KIAA0084. En aquesta pàgina també hi ha indicat el número de identificació Q14699 per poder accedir a la informació de la base de dades Swissprot. A partit d'aquesta s'ha arribat a l'Ensembl on s'ha trobat informació sobre els exons predits.
Aquesta proteïna hipotètica estaria formada per un total de 10 exons distribuïts en diferents BACs. Justament els 4 primers exons corresponen al BAC de identificació AC010727 que és el subjecte de l'anàlisi, coincidint amb una de les possibles hipòtesis. De manera que el primer exó seria un iniciador. Al comparar les coordenades de les prediccions de la base de dades i del geneid es veu que difereixen molt poc:
Ensembl geneid -------------------------------------------------------------------------- Inici Final Inici Final -------------------------------------------------------------------------- exo 1 135200 135401 135200 135388 exo 2 115483 115635 115483 115697 exo 3 55609 55795 55609 55736 exo 4 31133 31241 31133 31241
exo 1 exo 2 exo 3 exo 4 intro 1 intro 2 intro 3 intro 4 ------------------------------------------------------------------------------------------------------------------------------------------ pauta 1 -3.21 -5.29 -8.76 -80.58 -9000 -28043 -11027 -13433 pauta 2 -5.93 -240 9.32 -84.46 -8384 -28552 -11175 -12804 pauta 3 -3.87 -79.53 2.79 -0.18 -9266 -28727 -11635 -14098
gina.abello01@campus.upf.eduAquest és el treball que han realitzat per l'assignatura de Bioinformàtica cursada l'any 2002.
roser.corominas01@campus.upf.edu