Estudi de la proteïna predita
La regió que correspon al gen 9 predit per genscan i part del 6 predit per geneid, no estan validats per ESTs, en canvi la regio del gen 8 predita per genscan si (gràfic) . Hem decidit fer una ampliació d'aquesta zona utilitzant les següents comandes: |
Un cop hem fet el blastp amb la predicció de geneid per al primer gen, obtenim 12 hits per aquesta. Ens adonem que l'aliniament no és gaire bo, doncs apareixen e-values molt grans (considerem que els e-values són acceptables si es troben propers a zero, o un nombre elevat a un exponencial negatiu gran). A més, s'observa que els fragments aliniats amb la proteïna són petits, i presenten una gran quantitat de gaps i poques identitats. Les proteïnes que s'alinien pertanyen a organismes de grups taxonòmics molt diferents, com per exemple, pollastre, e.coli, rata... Decidim doncs provar-ho amb la predicció de genscan i obtenim uns aliniaments exactament iguals, amb els mateixos hits, com es pot comprovar. Semblen aparàixer diferents dominis, per exemple dos P2Y purinoceptor, 3 Sensor protein rcsC,etc. |
|
En aquest cas hem obtingut 1 únic hit. Si observem l'aliniament veiem és bastant curt i s'observen bastants gaps.A més es suficient amb fixar-nos amb l' e-value, el qual es troba en un valor molt alt, fet que reflexa poca similaritat.
Pel que fa a l'aliniament amb la proteïna predita per genscan, observem 4 hits, els quals tampoc s'alinien per complet amb la nostra proteïna, però aporten una mica més d'informació. Per exemple 3 hits coincideixen en l'identificació d'un domini de proteïna ADAM (domini desintegrina i metaloproteinasa). |
PROTEÏNA 3 GENEID |
Un dels pitjors aliniaments , ha estat amb la proteïna 3, on només hem obtingut 3 hits, els quals tenen uns e-values bastant alts. Així doncs, en aquest cas la predicció de la proteïna no ens ajuda a determinar la presència d'un gen. Cal dir, però, que la predicció que es va fer en el seu moment amb els programes geneid i genscan tampoc ens van donar uns resultats gaire esperançadors, per tan era d'esperar obtenir uns resultats com aquests. De fet no hem pogut mostrar l'aliniament obtingut amb genscan, ja que no ens ha trobat similaritats significants, el qual era d'esperar. Un cop més ens corrobora que la possibilitat de trobar un gen en aquella zona és bastant baix.
PROTEÏNA 4 GENEID | PROTEÏNA 4 GENSCAN |
Si mirem els hits que ha trobat el blastp amb la predicció de geneid, trobem proteïnes amb un e-value d'entre 9e-69 i 2e-34, els quals són uns valors més acceptables. En quant a la taxonomia que presenten les proteïnes, hi ha molta variació. Així, per exemple, en el cas del primer hit, es troba a Caenorhabditis elegans, el segon en llevadura, també es troba en ratolí...
De l'anàlisi dels aliniaments, ens es possible veure alguns residus conservats tan en aquells casos en qué l'aliniament té un score més alt com en aquells en que és inferior. Per exemple, la regió compresa entre els residus 148 i 171 de la proteïna problema, es troba molt ben conservada en tots els aliniaments. Podria ser doncs, que aquesta regió tingués importància funcional.
Analitzem aquests dominis conservats i com podem veure a les figures, i en els aliniaments obtinguts amb les proteïnes predites amb genscan i geneid , veiem que el que té un score més alt és el domini KOGO738, el qual té funció ATPasa. Els altres dominis alineats també ho són a excepció d'alguns Factors peroxisoma o proteosoma.
Els dos primers aliniaments són la mateixa proteïna, però s'alinia en dos trossos diferents. Al comprovar l'aliniament amb la nostra query veiem que el primer fragment de query va de 104-391 i la KOGO738 de 207 a 491 , i en el segon fragment la query s'alinia de 1 a 108 al igual que KOGO738. Ens adonem que en la query hi ha un solapament de 4 aminoàcids (104-108) i en la KOGO738 es perd una regió entre (108-207). Això ens pot portar a pensar que en la predicció hem perdut un exó, ja que la resta de l'aliniament és prou bo o que es tracta d'un pseudogen.
Però si investiguem una mica més podem arribar a saber a quin exó ha esdevingut el truncament (es a dir la localització de l'aa 104 en la nostra seqüència). Això ho sabrem realitzant una sèrie de càlculs.
El que hem obtingut és que els nucleòtids finals de l'exó 2 codifiquen per l'aa 104. El fet que es doni a la part final del gen fa pensar que la nostra predicció a passat per alt un exó, o que aquest s'ha perdut al llarg de l'evolució.
Una manera de comprovar aquestes hipòtesis ha estat mirant els ESTs i observar si algun d'ells ens permet predir un gen entre l'exó 2 i 3. I tal com podem observar al gràfic dels ESTs i les prediccions, veiem que entre els exons esmentats els ESTs validen la presència d'un altre exó que els programes genscan, geneid no prediuen. Per tant la nostra primera hipotesi és correcta.
Per altra banda hem utilitzat el programa GeneWise on hem enfrontat la nostra proteïna amb la subseqüència hg16_dna_261662-338899 (inclou els els gens esmentats). Aquest programa ens alinia la nostra proteïna tenint en compte l'estructura d'introns-exons. El resultat del genewise ens mostra 4 exons, pero a la regió de l'aa 110-120 torna a apareixer un intró.
També hem realitzat un tblastn tblastn .
Per altra banda hem entrat al link de KOGO738, on trobem aliniaments de la proteïna amb altres organismes. Comprovem que aquest domini es troba en Eucariotes i que és semblant en Homo Sapiens a la subunitat p60 de la katanina (proteïna de citoesquelet). En Arabidopsis Thaliana també s'assembla a katanina i ATPasa. Això no és d'estranyar ja que la katanina té activitat ATPasa. Un altre organisme on es troba un aliniament es en Drosophila.Així verifiquem que aquest domini es troba conservat a nivell Eucariota.
PROTEÏNA 5 GENEID | PROTEÏNA 5 GENSCAN |
-gawk '$4>8000 && $5<90000'hg16_dna_369503-500000.spliced_rescored_modificat.gff | gff2ps -f -S 20000 - > test.ps
-convert -rotate 90 test.ps test.jpg
-kview test.jpg
La imatge obtinguda es mostra a continuació
Ara podem observar amb major claredat els ESTs,i amb la finalitat de dur a terme un estudi més exhaustiu, busquem el DNA de l' EST amb un score major gi_30774134_emb_BX443263.1_BX443263 . I duem a terme un BLASTX tenint en compte tots els organismes. El resultat del BLASTX és:
El gen 7 predit amb el genscan no està suportat per cap EST.
PROTEÏNA 7 GENEID |
La proteïna 7 predita per geneid, tal i com s'observa en l'aliniament , ens aporta bastanta informació.El primer hit obtingut, amb un score de 287 i un 97% d'identitat, ens permet dir que aquesta &eactue;s Ubiquitin-conjugating enzyme E2-18 kDa UbcH7 (Ubiquitin-protein ligase) (Ubiquitin-protein). I tots els altres hits són de proteïnes de la mateixa família com era d'esperar.En aquest cas podem afirmar amb seguretat que aquesta proteïna es troba en la nostra seqüència, i podem obtenir més informació en el link de NCBI (gi|1717860|sp|P51966|UBC7_HUMAN).