SUBSEQÜÈNCIA C

A la taula següent es poden observar les prediccions compreses a a la subseqüència C, s'han resaltat amb color vermell l'inici i el final triats.

Validació de les prediccions

PROGRAMA NÚMERO DE GEN COORDENADA D'INICI COORDEBADA FINAL SENTIT
Geneid 3 276152 354258 forward
Fgenesh 3 271735 354258 forward
Genscan 5 275016 354258 forward
Grail 3.1 276210 354258 forward

Fent una observació del gràfic es pot veure que el quatre programes de predicció de gens sembla que aporten un resultat molt semblant perquè només difereixen en l'exó incial.

Els ESTs d'humà per a aquesta seqüència aporten un resultat que dóna suport a gairebé tots els exons predits. Fent un anàlisi acurat es pot veure que solapant els diferents ESTs es pot cobrir gairebé tota la predicció excepte per a un fragment comprès entre els nucleòtids 620.000 i 680.000 que no es pot connectar amb cap dels seus anteriors ni posteriors.

Segons aquest resultat no ens trobem davant d'una proteïna sinó dues .A continuació es mostren els gràfics amb els ESTs més significatius per a cada possible gen.

En el gràfic de la primera regió es pot apreciar que l'inici millor predit està fet pel programa Grail. També es pot veure que hi ha un possible splicing alternatiu a la primera regió ja que hi ha un EST suportant un exó que no apareix a la predicció dels gen.

En el segon gràfic es pot observar que els millors exons predits són els del programa Grail, ja que tots ells estan recolzats per ESTs. En aquest cas, a diferència del que s'observava a l'altre fragment, no es troba splicing alternatiu.


Identificació de les proteïnes

A partir de la cerca a bases de dades de proteïnes podrem esbrinar si la predicció correspon a un sol gen o es tracta o són dos. Per fer la cerca en BLASTP s'ha utilitzat la predicció 3.1 del programa Grail per les raons exposades anteriorment.

 GrailEXP Gene 3, Var 1 protein|Derived from similarity to AF042838 
SPEAGGGGGALKASSAPAAAAGLLREAGSGGRERADWRRRQLRKVRSVELDQLPEQPLFLAASPPASSTS 
PSPEPADAAGSGTGFQPVAVPPPHGAASRGGAHLTESVAAPDSGASSPAAAEPGEKRAPAAEPSPAAAPA 
GREMENKETLKGLHKMDDRPEERMIREKLKATCMPAWKHEWLERRNRRGPVVVKPIPVKGDGSEMNHLAA 
ESPGEVQASAASPASKGRRSPSPGNSPSGRTVKSESPGVRRKRVSPVPFQSGRITPPRRAPSPDGFSPYS 
PEETNRRVNKVMRARLYLLQQIGPNSFLIGGDSPDNKYRVFIGPQNCSCARGTFCIHLLFVMLRVFQLEP 
SDPMLWRKTLKNFEVESLFQKYHSRRSSRIKAPSRNTIQKFVSRMSNSHTLSSSSTSTSSSENSIKDEEE 
QMCPICLLGMLDEESLTVCEDGCRNKLHHHCMSIWAEECRRNREPLICPLCRSKWRSHDFYSHELSSPVD 
SPSSLRAAQQQTVQQQPLAGSRRNQESNFNLTHYGTQQIPPAYKDLAEPWIQVFGMELVGCLFSRNWNVR 
EMALRRLSHDVSGALLLANGESTGNSGGSSGSSPSGGATSGSSQTSISGDVVEACCSVLSMVCADPVYKV 
YVAALKTLRAMLVYTPCHSLAERIKLQRLLQPVVDTILVKCADANSRTSQLSISTLLELCKGQAGELAVG 
REILKAGSIGIGGVDYVLNCILGNQTESNNWQELLGRLCLIDRLLLEFPAEFYPHIVSTDVSQAEPVEIR 
YKKLLSLLTFALQSIDNSHSMVGKLSRRIYLSSARMVTTVPHVFSKLLEMLSVSSSTHFTRMRRRLMAIA 
DEVEIAEAIQLGVEDTLDGQQDSFLQASVPNNYLETTENSSPECTVHLEKTGKGLCATKLSASSEDISER 
LASISVGPSSXXXXXXXXXEQPKPMVQTKGRPHSQCLNSSPLSHHSQLMFPALSTPSSSTPSVPAGTATD 
VSKHRLQGFIPCRIPSASPQTQRKFSLQFHRNCPENKDSDKLSPVFTQSRPLPSSNIHRPKPSRPTPGNT 
SKQGDPSKNSMTLDLNSSSKCDDSFGCSSNSSNAVIPSDETVFTPVEEKCRLDVNTELNSSIEDLLEASM 
PSSDTTVTFKSEVAVLSPEKAENDDTYKDDVNHNQKCKEKMEAEEEEALAIAMAMSASQDALPIVPQLQV 
ENGEDIIIIQQDTPETLPGHTKAKQPYREDTEWLKGQQIGLGAFSSCYQAQDVGTGTLMAVKQVTYVRNT 
SSEQEEVVEALREEIRMMSHLNHPNIIRMLGATCEKSNYNLFIEWMAGGSVAHLLSKYGAFKESVVINYT 
EQLLRGLSYLHENQIIHRDVKGANLLIDSTGQRLRIADFGAAARLASKGTGAGEFQGQLLGTIAFMAPEV 
LRGQQYGRSCDVWSVGCAIIEMACAKPPWNAEKHSNHLALIFKIASATTAPSIPSHLSPGLRDVALRCLE 
LQPQDRPPSRELLKHPVFRTTW* 

La imatge que es veu a continuació apareixen les proteïnes resultants de la cerca en BLASTP. Es pot observar que hi ha quatre proteïnes amb les que presenta una alta homologia, aquestes són:

- MAPKKK (mitogen-activated protein kinase kinase kinase) 1 d'humà, amb la qual presenta una homologia d'un 84% amb un score de 2407.

gi|37550279|ref|XP_042066.7|  mitogen-activated protein kina MAP3K1...  2407   0.0 

- MAPK/ERK KK1 d'humà amb la qual presenta una homologia del 82% i un score de 2336.

- MAPKKK 1 de ratolí que té una homologia d'un 80% i un score de 2148.

- MAPKK rata amb la qual comparteix una homologia del 79% i un score de 2100.

Totes elles tenen un e-value de 0, fet que fa concloure que es tracta d'una proteïna de la família de les descrites anteriorment, és a dir, es tracta d'una MAP kinasa.

Mirant el gràfic també es pot apreciar que hi ha un grup de proteïnes que presenten homologia a una regió de la nostra proteïna predita, concretament a partir dels aminoàcids 1220-1223. Totes elles presenten en comú un domini kinasa. La primera en aparèixer dins aquest grup és una MEK kinase pertanyent a una ameba (Dictyostelium discoideum) i la següent és una kinasa de la planta del tabac (Nicotiana tabacum).

D'acord amb aquests resultats, es pot concloure que la proteïna predita es tracta d'una proteïna kinasa i a diferència del que es pensava inicialment, es tracta d'una sola proteïna i no pas de dues.A més a més, fent una cerca en una base de dades de dominis s'ha confirmat la nostra hipòtesi.

Estudi de la regió promotora

Els resultats obtinguts amb el programa TRASNFAC prediuen la presència d'una única seqüència promotora. Aquesta es troba a la posició 16 de la cadena en forward i té una puntuació de 1.

matrix                    position  core   matrix sequence (always the               factor name 
identifier                (strand)  match  match  (+)-strand is shown) 

V$COMP1_01                  16 (+)  1.000  0.817  ggccgaGATTGccgagaggaagcg           COMP1 



Total sequences length=500 
Total number of sites found=1 
Frequency of sites per nucleotide=0.002000 

Llavors, amb recolzament per ESTs, proteïnes homòlogues trobades per BLASTP i la presència de promotors, es pot gairebé assegurar que la predicció era correcta i que es tracta d'un gen que codifica per a una MAP Kinasa.



Subseqüència A

Subseqüència B

Subseqüència C

Subseqüència D

Subseqüència E


Pàgina principal