Discussió

Petits aspectes a tenir en compte

El principal aspecte que s'havia de tenir en compte a l'hora d'executar els programes i analitzar els resultats, és el fet que la seqüència de la que es partia és una selenoproteïna i que per tant, conté un codó UGA que no ha de considerar-se com un codó STOP sinó com un triplet codificant.

Però a mesura que s'avança amb l'execució dels diferents programes apareix un "problema" afegit, que fins ara era desconegut: el fet que el gen a anotar està en reverse en el genoma.

Això implica que dins la seqüència genòmica, l'ATG (inici) del gen es troba a l'extrem 3' de la cadena i el codó STOP a l'extrem 5', és a dir, just al contrari que els gens en forward que segueixen el sentit de la transcripció, de 5' a 3'. Això també implica que l'exó final es trobi a posicions més baixes de la seqüència, cosa que portarà problemes a l'hora de treballar amb segons quin programa.

A continuació s'analitza com cada programa tracta aquests dos aspectes.

GENEWISE

Tot discutint els resultats de Genewise, s'ha de dir que el seu output presenta unes avantatges considerables com són:

Permet alinear una seqüència genòmica d'una espècie amb una seqüència proteica provinent d'una segona espècie. És molt útil, doncs, per buscar proteïnes ortòlogues entre dues espècies.
Delimita molt bé els introns, en aquelles regions on no ha pogut fer l'alineament amb la proteïna, assenyalant els splice sites AG/GT.
Mostra si un codó queda tallat per un intró, assenyalant en quina fase es queda l'exó (quants nucleòtids falten per acabar el triplet de l'últim codó).
Permet mostrar l'output en format gff, condició indispensable per poder fer posteriorment un gff2ps.
Tradueix la seqüència genòmica alineada a proteïna, la compara amb la seqüència ortòloga i n'extreu la seqüència consens.

De totes maneres, al principi va mostrar problemes amb l'aspecte del codó UAG. La comanda d'execució estàndar, de la que es va partir, era la següent:

    ./genewise -pretty -genes -trans -cdna -gff -trev seq/proteinahs.fa seq/genomica.fa > results.genewise

I l'output obtingut, apareixia la següent advertència:

Warning Error
Unable to paste the word [204131:204055] into btcanvas
Warning Error
Got a stop codon in the middle of a translation at postion [225].
Yuk!

Com que en totes les prote.bŽïnes, excepte en la família de les selenoproteïnes, el codó UGA correspon a un codó STOP, el Genewise estŽà programat per reconèixer aquest com a tal. Per això davant de la presència del codó UGA in-frame, apareix l'advertiment. Per tal que aquest codó sigui recodificat, tenim el paràmetre

-trev

que especifica que la seqüència proteica està en reverse.

QU.AŽÈ PASSA SI ES TREU EL -TREV DE LA SEQ? Si es treu de la comanda d'execució, el Genewise intenta aliniar la seqüència proteica introduïda només amb el forward strand de la genòmica. És evident, doncs, que els aliniaments que podrà fer seran fruit de l'atzar. L'output executat així, queda de la següent manera:

genewise input -pretty -genes -cdna -trans > output
genewise output
Score 22.70 bits over entire alignment
Scores as bits over a synchronous coding model
Warning: The bits scores is not probablistically correct for single seqs
See WWW help for more info
15-kDa 67 CRGCCQEEAQFETKK
C GCCQ +++ TKK
CNGCCQFRSKIRTKK
SCAF14367 249008 tagttctctaacaaa
gagggatgcatgcaa
tcgctgtatacagag
//
Gene 1
Gene 249008 249052
Exon 249008 249052
//
>SCAF14367.[249007:249052].sp.tr
CNGCCQFRSKIRTKK
//
>SCAF14367.[249007:249052].sp
TGTAACGGGTGCTGTCAGTTTCGATCTAAAATCCGAACGAAAAAG
//

Com era d'esperar, ha aliniat 15 del 147 aminoàcids introduïts.

Utilitzant doncs el paràmetre -trev i sobre la seqüència genòmica de Tetraodon nigroviridis, ha predit 4 exons en les següents posicions:


Gene 1
Gene 205823 203926
  Exon 205823 205632 phase 0
  Exon 204451 204388 phase 0
  Exon 204181 204132 phase 1
  Exon 204054 203926 phase 0

I ha traduït el gen en aquesta seqüència de 147 aminoàcids:


>SCAF14367.[205823:203924].sp.tr
LFPFALLQLSAYGAELSSEACRELGFSSNLLCTSCDLLGEFSLAKLQPNCQQCCQQEALM
EGRKLYPGAILEVCG*KLGRFPQVQAFVRSEKPKMFKGLQIKYVRGSDPVLKLLDDEGNI
AEELSILKWNTDSVEEFLSEKLDRI

Marcat en vermell es veu el senyal per el codó UAG. Correspon al 77è aminoàcid. Al no tenir la referència de l'aminoàcid Sec, posa el símbol *.

Tret d'haver de treure el paràmetre -trev, el Genewise no mostra tenir cap problema a l'hora d'analitzar la seqüència amb el codó UGA. Això és degut a que l'alineament el fa en funció dels dos inputs rebuts i no mira si hi ha incongruències amb el que està alineant. Comença a alinear per trossos i després els ajunta. En aquest cas, com que ha pogut alinear i ajuntar tots els aminoàcids fins la 76è i a partir del 78è, ha passat de llarg del codó UGA.

Pel que fa al problema del gen en reverse, el Genewise on dóna cap problema. L'ordre en què mostra els exons és l'ordre correcte, és a dir, l'exó d'inici comença a la posició 203926 i el codó STOP ens el senyala cap a la posició 205823.

Per acabar, però, sí que cal destacar una cosa important respecte l'alineament que ha fet el Genewise. Mirant el primer tros, que correspon a les posicions més altes, es veu que només ha alineat a partir de l'aminoàcid 18è d'humà.

 Warning: The bits scores is not probablistically correct for single seqs
See WWW help for more info

15-kDa            18 LLATVLQAVSAFGAEFSSEACRELGFSSNLLCSSCDLLGQFNLLQLDPD
                     L    L  +SA+GAE+SSEACRELGFSSNLLC+SCDLLG+F+L +L P+
                     LFPFALLQLSAYGAELSSEACRELGFSSNLLCTSCDLLGEFSLAKLQPN
SCAF14367    -205823 ctctgcccctgtgggcttggtagcgttaacctattgccggtacgaccca
                     ttctcttatccagcatccacggatgtcgattgccgattgatgtcataca
                     acgttccggagtccggaggccgggcccccggccgccgcagccccgcgcc

Això podria portar a pensar que la proteína de T.nigroviridis comença a l'equivalent de la posició 18a d'humà, però això es veu que no és així perquè sinó s'esperaria trobar l'aminoàcid metionina (que simbolitza el codó d'inici) i en canvi no s'observa.

És més probable que el què estigui passant sigui que la homologia estigui ben conservada entre les dues espècies a partir d'aquesta posició. Podria ser que T.nigroviridis tingués un domini inicial diferent al d'humà.

Com que només amb la informació de Genewise no es pot discernir quina de les opcions és, s'haurà de comparar els resultats amb els obtinguts amb els altres programes per donar una explicació coherent.

GENEID

S'ha de recordar que el Geneid nomé té un input, corresponent a la seqüència genòmica sobre la que es vol predir els gens. Això implica que els paràmetres que utilitza el programa estan definits per cada espècie.

Com s'observa a resultats, el Geneid es va fer primer utilitzant els paràmetres humans. De totes maneres es va veure que donava resultats força diferents als aconseguits pel Genewise. Va predir la següent estructura gènica:

# Gene 34 (Reverse). 3 exons. 116 aa. Score = 9.640206 
SCAF14367	geneid_v1.1	Terminal	203923	204054	 3.83	-	0	SCAF14367_34
SCAF14367	geneid_v1.1	Internal	205632	205799	 7.40	-	0	SCAF14367_34
SCAF14367	geneid_v1.1	First	207037	207084	-1.60	-	0	SCAF14367_34

Correspon al gen 34 de la seqüència genòmica (de 67 predits).

Canviant els paràmetres, i utilitzant els de T.nigroviridis, surt la següent predicció:

# Gene 35 (Reverse). 5 exons. 142 aa. Score = 14.281788
SCAF14367       geneid_v1.1     Terminal        203923  204054   2.69   -       0       SCAF14367_35
SCAF14367       geneid_v1.1     Internal        204132  204171   3.01   -       1       SCAF14367_35
SCAF14367       geneid_v1.1     Internal        205478  205515  -2.56   -       0       SCAF14367_35
SCAF14367       geneid_v1.1     Internal        205632  205799  12.11   -       0       SCAF14367_35
SCAF14367       geneid_v1.1     First   207037  207084  -0.97   -       0       SCAF14367_35

En aquest cas correspon al gen 35 (de 72 predits).

Es pot observar que, canviant els paràmetres, varia sensiblement la predicció. Cap dels dos, però prediu el codó UGA. Tots dos el deixen com a regió intrònica.

Quan s'executa el Geneid, fa una primera passada buscant TOTS els possibles exons que podríen formar els gens. Un cop els té trobats, suma els scores calculats per a cada exó i tria aquells que tenen la puntuació més alta.

Quan analitza la seqüència de T.nigroviridis i troba un codó UGA in-frame, com que el programa té instruccions de no acceptar-ho, considera aquella regió com un intró.

Segons el Genewise, el codó UGA, correspon a les posicions nucleotídiques 204418-204415. En ambdues prediccions de Geneid, aquests nucleòtids no estan dins les regions exòniques.

CONCLUSIÓ: el Geneid no reconeix el codó UGA com a codificant i per tant no anirà mai bé per predir exons d'una selenoproteïna.

Pel què fa a la distribució dels exons, veiem que els tres predits utilitzant els paràmetres humans coincideixen amb els predits amb el paràmetres de T.nigroviridis, amb l'afegit que aquest en prediu dos més com a exó 3 i 4. S'ha de dir, però que el corresponent amb l'exó 3 té un score tant baix que fa pensar que no sigui gaire fiable.

Pel que fa a la comparació amb les prediccions de Genewise, veiem que l'únic exó predit per els tres mitjans és l'últim (posicions 204054-203926), el que correspondria amb el codó STOP. Recordar que degut a que el gen està en reverse, aquest exó ocupa les posicions més baixes dins la seqüència genòmica. Degut a la coincidència de les tres prediccions, es podria pensar que és un resultat força fiable.

Continuant amb les comparacions, s'ha de recordar que amb el Genewise hi havia problemes per predir el primer dels exons.

Aquí la predicció no ajuda a aclarar els problemes presentats. Tant la utilització de paràmetres humans com del peix, mostra un exó inici a les posicions 207037-207084. De totes maneres, presenta scores molt baixos i està molt allunyat de la resta dels exons. Això, però no descarta d'entrada l'existència del mateix. Les raons són dues:

L'score negatiu no té perquè ser sempre descartable.
Cal recordar que hi ha espècies, com la Drosophila melanogaster, a on el fet de trobar el primer exó molt allunyat de la resta, és un fet habitual.

Per tant, doncs, lluny d'ajudar a predir les zones inicials de l'exó, ha afegit una altra hipòtesi a la investigació.

S'haurà de veure què conclouen els altres programes.

SPIDEY

L'Spidey, a primera vista, és el programa que més problemes porta, sobretot a l'hora d'interpretar els resultats.

Es van haver de fer una sèries de modificacions per tal de treure'n informació.

S'ha de recordar que l'Spidey fa un alineament entre els contigs d'mRNA i la seqüència genòmica introduïda. En aquest cas, s'han alineat 9 contigs, donant 9 prediccions diferents. Sobre cada seqüència, l'Spidey prediu els exons, com les regions a on s'han alineat els contigs.

En la majoria dels contigs, s'han predit molts exons. De totes maneres, segons les posicions que descriuen els altres programes com a les posicions del gen 15kDa, dels resultats de l'Spidey cal fixar-se només amb els exons de l'1 al 5 (que abarquen les posicions de la 203568 a la 207057).

La resta (fins a 16 en alguns contigs) corresponen a altres regions de la seqüència que ara no interessen. S'ha de dir que d'aquests altres exons que suposadament ha trobat, tenen percentatges d'identitat baixos i alinien trossos molt curts, cosa que es podria deure a l'atzar més que no pas una correspondència biològica.

Tots els contigs prediuen els mateixos 5 primers exons, per tant, doncs, s'han pres com els exons de la predicció del gen 15kDa de l'Spidey. És el següent:

Exon 1(-): 207037-207057 (gen)  1-21 (mRNA)  id 100.0% mismatches 0 gaps 0  splice site (d  a): 1  0
Exon 2(-): 205632-205799 (gen)  22-190 (mRNA)  id 99.4% mismatches 1 gaps 1  splice site (d  a): 1  1
Exon 3(-): 204388-204451 (gen)  191-254 (mRNA)  id 100.0% mismatches 0 gaps 0  splice site (d  a): 1  1
Exon 4(-): 204132-204181 (gen)  255-304 (mRNA)  id 100.0% mismatches 0 gaps 0  splice site (d  a): 1  1
Exon 5(-): 203568-204054 (gen)  305-791 (mRNA)  id 96.9% mismatches 15 gaps 0  splice site (d  a): 0  1

Cal destacar que l'Spidey, al igual que el Geneid, troba l'exó de les posicions 207037-207057 cosa que porta a confirmar que segurament és un exó fiable.

A partir de l'output es poden identificar les regions UTRs, que correspondran a aquells segments de seqüència que no ha traduït a proteïna (abans del codó d'inici -5'UTR- i després del codó STOP -3'UTR).

El tractament del codó UGA per part de l'Spidey, ha donat molts problemes. De fet, el resultat és que ha variat la pauta de lectura de tal manera que el UGA (TGA quan parlem d'DNA) ha deixat d'estar in-frame:

El Genewise tradueix la zona del codó com:
```
ILEVCG*KLGRF
```
.
La regió nucleotídica a la que correspon és:
```
CGGATGAAAACTG
```
.

L'exó predit per l'Spidey que conté aquesta seqüència és (a sota també es mostra la conseqüent traducció):


Exon 3: 204451-204388 (gen)  191-254 (mRNA)


CTGCACGTAGCTGTATCCCGGGGCCATTCTGGAGGTGTGCGGATGAAAACTGGGGAGGTT
          ||||||||||||||||||||||||||||||||||||||||||||||||||
          CTGTATCCCGGGGCCATTCTGGAGGTGTGCGGATGAAAACTGGGGAGGTT
            C  I  P  G  P  F  W  R  C  A  D  E  N  W  G  G


CCCCCAAGTCCAAGGTGAGCCAGA
||||||||||||||
CCCCCAAGTCCAAG
S  P  K  S  K

Es veu doncs, que l'Spidey ha agafat el codó UGA i l'ha considerat com a parts de dos triplets:

GAT

Per l'aminoàcid D

GAA

Per l'aminoàcid E

El resultat és que l'Spidey NO ha predit el codó UGA. S'ha limitat a intentar aliniar els contigs amb el DNA i buscar algun ORF que li permetés traduir sense trobar-se el codó UGA in-frame.

Per una altra banda, es van tenir molts problemes a l'hora d'interpretar els resultats de l'aliniament. Com es veu en els resultats, considera que l'input que està en reverse és la seqüència genòmica i que, en canvi, la proteïna que conté està en forward.

Això s'observa quan es mira la primera columna de resultats a on apareix el símbol (-) al costat d'EXON. Confirma la seva teoria de gen en reverse i proteïna en forward tot assenyalant els splice sites d'inici i terminació d'intró en forward, és a dir AG i GT .

Al ja saber-se que el genòmic no podia estar en reverse, es van fer, entre d'altres coses, fer les seqüències complementàries dels contigs, ja que semblava que l'Spidey girava el genòmic perquè aliniés millor amb els contigs.

Es va fer un programa que ho fés, utiltzant el llenguatge de programació Perl. Per veure el codi del programa, clicar aquí.

De totes maneres, aquesta afirmació no podia ser certa. Després de mirar atentament els diferents resultats obtinguts de totes les proves fetes amb el programa, la conclusió final a la que es va arribar és que l'Spidey mostra sempre la proteïna predita en forward, malgrat de forma natural no ho estigui. Això no és problema si no fós pel fet que això no ho especifiquen enlloc i per tant s'ha d'anar amb molta cura a l'hora d'interpretar.

Per acabar, encara que els resultats de l'Spidey no servissin gaire per avançar amb l'anotació del gen, sí que va servir per entendre millor quina era la veritable estructuració del gen dins el genoma. Un dels fets que més s'ha de tenir en compte és que si s'observa la seqüència genòmica, degut a tenir el gen en reverse, els splice sites d'aquest sortiran com els complementaris als coneguts. De fet, totes les senyals sortiran complementàries a les estàndars: ATG, splice sites, codó STOP...

SECISearch

Més que un programa per identificar el gen 15kDa, aquesta és una eina que ha servit per verificar la presència d'un element SECIS dins l'estructura del 3'-UTR. Com ja s'ha comentat abans, és una condició indispensable per la correcta traducció d'una selenoproteïna.

La presència de l'element SECIS en el 3'-UTR de les selenoproteïnes, dicta que qualsevol UGA in-frame es codifiqui per l'aminoàcid selenocisteïna sempre i quan es conservi una certa distància entre ell i el codó. Aquesta distància ha d'estar compresa entre 51 i 111 nucleòtids. Aquesta propietat suggereix que l'element és necessari i suficient per la inserció del Sec. (Hatfield et al.).

Si analitzant els mRNAs dels que es disposaven no s'hagués trobat cap hit per elements SECIS, hauria indicat que, o bé no es tracta d'una selenoproteïna o que no es disposa del contig d'mRNA que presenta la seqüència SECIS.

Com es pot observar a la pàgina de resultats, dels 9 contigs dels què es partia, 3 han presentat hits, és a dir, tres contenien en la seva seqüència un element SECIS.

Al comparar la seqüència que responia pel hit, s'ha vist que tots contenien la mateixa, cosa que porta a pensar que els tres contigs són transcripcions d'aproximadament la mateixa regió de la seqüència genòmica. La seqüència en si responsable de l'element SECIS és:


GGAAUUGUUU UCUACCU GCUGCGAACCUCA AUGAA GCCUCACGCuG aA AAUCCGCC AGGCCUGAGGU CGAU GCUCACUGUU CCGGUGGg ucAAACAAAC

És el resultat d'introduir el primer mRNA en el SECISearch, tot i que els altres mostraven la mateixa seqüència.

Com es pot observar, és una seqüència força curta. A part, només els nucleòtids en vermell dictaminen la presència de l'element SECIS en la traducció. La resta de seqüència servirà per estabilitzar l'estructura. Degut a l'alta probabilitat de tenir una seqüència similar provocat per l'atzar, hi ha d'haver altres paràmetres, o condicions que es compleixin a l'hora de considerar aquesta seqüència com un possible candidat a formar un element SECIS.

Responent a aquesta afirmació, s'ha de dir que si una cosa és important perquè un procés biològic es pugui dur a terme, és que aquest ha de ser favorable energèticament parlant. Si no ho és, per molta seqüència que tingui, mai tirarà endavant. Doncs bé, amb els elements SECIS passa exactement igual. La seva funcionalitat com a tals, ve regida per l'energia lliure de Gibbs associada a la seva seqüència. Aquesta ha d'estar dins uns determinats llindars per a que es pugui considerar suficientment estable com per adoptar l'estructura secundària característica dels elements SECIS. Una energia de Gibbs fora d'aquest interval, segurament indica que aquella seqüència, tot i tenir nucleòtids similars als escrits abans, no pot tractar-se d'un element d'aquestes característiques.

Els valors d'energia lliure de Gibbs adients per poder acceptar com a tal un element SECIS han de ser igual o més petits (més negatius) que les següents energies:

-5 kcal/mol pel core (només fent referència al loop apical i l'hèlix que conté l'ATGA -AUGA per l'estructura d'mRNA exemplificat a dalt- marcat en vermell).
-11 kcal/mol per tota l'estructura.

Aquest valor energètic associat, el programa SECISearch l'indica juntament amb la resta de l'output. Pel que fa a l'exemple que aquí es discuteix, el valor que s'estableix és de:

1  FD0ABA26AC03.contig: 988 1086
upstemen:-11.79 fullstructen: -27.54

Hi ha dos valors indicats. Un que fa referència a l'estabilitat del loop, i l'altre que fa referènica a l'estabilitat de l'estructura general. (veure esquema de l'apartat de Resultats). Cal recordar que el loop és la regió més important per garantir la seva funcionalitat. Com es pot comprovar, els dos valors estan perfectament compresos per sota el llindar, cosa que ratifica la seva funcionalitat com a seqüència d'un element SECIS.

Un aspecte que cal comentar, és que, a rel del que s'ha exposat sobre la distància mínima entre l'element SECIS i l'UGA, s'ha intentat buscar en l'exemple que aquí s'exposa. No ha estat possible però, ja que no s'ha trobat la correspondència de l'mRNA a la seqüència genòmica, i per tant no se n'ha pogut estimar la posició dins la mateixa. La raó de no poder-se dur a terme, com es comentarà més avall, ha estat la impossibilitat de realitzar un BLAST amb aliniaments satisfactoris.

A part d'aquesta discussió arran les evidències d'estar davant d'una element SECIS o no, hi ha un altre aspecte que cal comentar:

Si la seqüència de l'element es troba a l'mRNA ja que forma part del 3'-UTR, i, tenint en compte que és una regió que no pateix modificacions durant la transcripció, es pot deduir que la seva seqüència complementària s'ha de trobar intacte al DNA genòmic. S'esperaria, per tant, que si es fes un BLAST llençant l'mRNA contra el seu fragment genòmic, hi hagués un alineament perfecte de la seqüència del SECIS. Doncs bé això en teoria passa, però quan s'ha fet la prova amb el cas utilitzat aquí, s'obté el següent alineament:


Query= FD0ABA26AC03.contig
         (1123 letters)

Database: blast/hola 
           1 sequences; 444,931 total letters

Searching.done

                                                                 Score    E
Sequences producing significant alignments:                      (bits) Value

SCAF14367                                                              30   0.39 

>SCAF14367
          Length = 444931

 Score = 30.2 bits (15), Expect = 0.39
 Identities = 15/15 (100%)
 Strand = Plus / Plus

                             
Query: 773    ctccaacatgaccac 787
              |||||||||||||||
Sbjct: 204347 ctccaacatgaccac 204361



 Score = 30.2 bits (15), Expect = 0.39
 Identities = 15/15 (100%)
 Strand = Plus / Plus

                             
Query: 194    cctctcctctcaggc 208
              |||||||||||||||
Sbjct: 124414 cctctcctctcaggc 124428



 Score = 30.2 bits (15), Expect = 0.39
 Identities = 15/15 (100%)
 Strand = Plus / Minus

                             
Query: 1094   atggttcaagtggaa 1108
              |||||||||||||||
Sbjct: 251227 atggttcaagtggaa 251213

Només correspon a un fragment de l'aliniament. Si es vol veure sencer, es pot trobar a l'apartat de Resultats. De totes maneres, per la conclusió que se n'ha d'extreure, aquest fragment és suficient.

El màxim aliniment trobat correspon a 18 nucleòtids seguits. Tenint en compte que es partien de més de 1000 inicials, això sembla indicar que es tracta d'aliniaments gens fiables. Però, com és que no es troba el fragment, si se sap del cert que prové d'una seqüència genòmica?

La resposta s'ha de buscar en els mètodes que utilitzen per seqüenciar els genomes. Com que la seqüenciació consisteix en anar ajuntant els fragments curts que van analitzant (les tècniques utilitzades no permeten encara treballar amb fragments massa grans) és altament probable que es cometin errors de solapament entre dues regions o d'espais en blanc. Aquest fet és molt visible sobretot quan es tracta de sequenciar els fragments intergènics o intrònics. Segurament aquest fet és menys evident quan es parteix de regions codificants ja que es té una base fiable sobre la que treballar, com ara la proteïna.

Resumint, doncs, quan s'ha intentat extrapolar la seqüència trobada en els mRNAs com a reponsable de l'element SECIS, a la seqüència genòmica, no s'ha trobat. Per tant, es pot dir que el fragment genòmic del què es parteix no està del tot ben anotat.

Gff2ps

El resultat d'aquest programa, ha sigut una integració dels resultats de la resta dels programes. No ha aportat informació nova, però sí una forma molt més aclaradora d'interpretar els resultats. El fet de poder visualitzar totes les prediccions en un sol gràfic, permet comparar els resultats i treure'n conclusions més fiables que no pas quan s'analitza cada programa per separat.

El gràfic, que es mostra a l'apartat de Resultats, dibuixa l'estructura del gen en funció de les prediccions que ha fet cada programa. En aquest cas, s'han analitzat els resultats aconseguits pel Genewise, l'Spidey i el Geneid utilitzant tant els paràmetres humans com els de T.nigroviridis.

Un aspecte interessant d'aquest programa és que les alçades de les caixes que representen els exons varien en funció de l'score que se'ls hi hagi otorgat. Això no servirà per discernir entre la predicció d'un programa o d'un altre, perquè cada un utilitza els seus propis criteris per otorgar un score, però sí que serà molt útil per veure quin exó dins una mateixa predicció és més probable que hi sigui.

Tenint aquestes premises sobre cada programa i sobre el resultat d'aquest últim, sembla interessant comentar una mica els resultats finals obtinugts en aquest gràfic.

Abans d'analitzar-lo s'ha de tornar a fer èmfasi que, al tenir el gen en reverse, el gràfic s'ha d'interpretar com que el codó ATG estigui a l'extrem 3' (dreta) i el codó STOP a l'extrem 5' (esquerra).

A primera vista es veu que amb els resultats obtinguts serà difícil concretar exactament l'estructura del gen 15kDa. Bàsicament perquè cada programa ha fet les seves prediccions en funció d'uns inputs diferents i només dos exons són predits pels tres programes (sempre tenint en compte que del Geneid s'estan utilitzant els dos resultats). Aquests exons serien el número dos (amb un score molt bo otorgat per part de tots els programes) i l'últim, corresponent amb el codó STOP.

S'ha de dir que pel que fa l'últim, l'Spidey el considera molt més llarg que la resta. Això es deu al fet que ha considerat tot el fragment aliniat com a part d'exó tot i estar aliniant el 5'-UTR. Si es mira el resultat de l'aliniament que proposa l'Spidey pel què considera tot un exó:

Exon 5: 204054-203568 (gen)  305-791 (mRNA)


ACCCCACCAGTACGTCAGAGGCTCAGACCCTGTGCTCAAGCTTCTGGACGACGAAGGGAA
          ||||||||||||||||||||||||||||||||||||||||||| ||||||
          TACGTCAGAGGCTCAGACCCTGTGCTCAAGCTTCTGGACGACGTAGGGAA
            T  S  E  A  Q  T  L  C  S  S  F  W  T  T  *


CATTGCTGAGGAGCTCAGCATCCTCAAGTGGAACACGGACAGCGTGGAGGAGTTCCTGAG
|||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||
CATTGCTGAGGAACTCAGCATCCTCAAGTGGAACACGGACAGCGTGGAGGAGTTCCTGAG



CGAGAAATTAGATCGGATATAAACGTCAGAATCCGACTTCCCCTTTTTAAACCATCTTCA
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
CGAGAAATTAGATCGGATATAAACGTCAGAATCCGACTTCCCCTTTTTAAACCATCTTCG



CTTTCCTTTATTTTTGAGTTATTGTGGGAATCTTCATCCATCACCTGTGTTCAGTGGCTA
|||||||||||||||| ||||||||||||||||||||||| |||||||||||||||||||
CTTTCCTTTATTTTTGCGTTATTGTGGGAATCTTCATCCAACACCTGTGTTCAGTGGCTA



TGAAAATATCTTTTTAAGTTTGCAAGTTTAGTCAGACAGGACTTTCTTTTTGTACTAACA
||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||
TGAAAATATCTTTTTAAGTTTGCAAGTTTAGTCAGACAGGACTCTCTTTTTGTACTAACA



GCGTCCTTGTTGCTCTCCAAAAGCAGATGTCTTGGAAACCCACGTTAGTGAAGACCTGGC
|||||| |||||||||||||||||||||||||||||||||| ||||||||||||||||||
GCGTCCCTGTTGCTCTCCAAAAGCAGATGTCTTGGAAACCCTCGTTAGTGAAGACCTGGC



AGTAAACCAGCGCTGGGATGTGAGGTCTGATGTATATTTGTGGGGTTTTTTCTTCTTCTT
|||||||||||||||||||||||||||||||||||||||||| ||  |||| ||||||||
AGTAAACCAGCGCTGGGATGTGAGGTCTGATGTATATTTGTGAGGGGTTTTTTTCTTCTT



GTGTTTGGAAAGAAACTGGATTGGTATGTGGGAGTTAAGAACCTGTTTAAGTTTGAAACA
|||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||
GTGTTTGGAAAGAAACTGGATTGGTATGTGGGCGTTAAGAACCTGTTTAAGTTTGAAACA



ATAAACGGAGTCTCTGGAGGTTTCTGT
||||||||  |||||||
ATAAACGGGATCTCTGG

es veu que troba el codó STOP, i segueix aliniant l'mRNA. Tot aquest fragment posterior, correspon al 5'-UTR. Tot i que teòricament hauria de senyalar el final d'exó després de l'STOP, el programa el marca al final de l'UTR aliniat. És per això que en el gràfic del gff2ps surt l'exó més llarg que la resta de les prediccions. No es pot tenir en compte, doncs, com un exó fiable.

A part d'aquest dos exons coincident per tots, també es veu un exó compartit per a tots els programes menys pel Genewise. Seria el que possiblement contindria el codó inici, tot i que tampoc s'ha pogut comprovar. El fet que Genewise no el trobi, es deu a que la proteïna humana no el conté. Podria ser doncs, un exó fiable. De totes maneres, mirant l'alçada de les caixes, confirma el que ja es comentava prèviament, que és el baix score que l'hi han otorgat el diferents programes. En aquest cas, no es pot fer cas de la caixa dibuixada per l'Spidey, ja que el programa no mira score sinó identitat, per això té una caixa tant alta.

Altres resultats que podem treure, és l'existència d'un possible exó, molt curt, predit per l'Spidey, el Genewise i el Geneid-T.nigroviridis. O un altre predit per l'Spidey i el Genewise. En ambdós casos, ni l'score és tant significatiu com els altres exons, ni estan predits per tots els programes, per tant la seva presència s'hauria de continuar investigant. Amb aquests resultats no es pot ni descartar però tampoc assegurar amb rigor.

L'última troballa que hi ha, és un més que petit exó predit únicament pel Geneid utilitzant els paràmetres de T.nigroviridis, que correspon, segons aquesta predicció a l'exó número 3. Malgrat estar predit per l'únic programa que utilitza els paràmetres de la pròpia espècie, la seva existència també s'hauria de verificar per un altre mètode.

Com ha quedat palès, les quatre prediccions que s'han analitzat no permeten definir amb total certesa l'anotació del gen 15kDa. S'ha de tenir en compte que es tracta d'una selenoproteïna i que per tant, el nivell de confiança que es pot atribuir a cada programa està subeditada a aquesta premisa. És per això que la fiabilitat de la predicció dependrà de la capacitat de cada programa per reconèixer l'UGA in-frame i tractar-lo com a regió exònica.

Partint d'això, la única predicció que contempla el triplet UGA dins un exó és la de Genewise. Tota la resta, l'han considerat regió intrònica. Només per això ja es pot afirmar que és la única predicció que mereix confiança en aquest sentit. De totes maneres, el Genewise no prediu l'inici del gen i en canvi les altres tres prediccions sí. Aquest és un fet a tenir en compte, doncs segurament, la predicció final hauria de ser els exons trobats pel Genewise, més el primer dels exons predit per exemple, pel Geneid-T.nigroviridis (aprofitant que agafa els paràmetres propis de l'espècie). Si es partís de la seva proteïna pròpia enlloc de la ortòloga humana, segurament es podria predir l'extrem 3' correctament.

S'ha procedit a fer la reconstrucció de l'anotaciò proposada mitjançant el gff2ps. Per fer-ho s'ha fusionat el primer dels exons amb la predició de Genewise, obtenint el següent resultat:


SCAF14367	15kDa	cds	207084  207037	0.00	-	0	.	 
SCAF14367	15kDa	cds	205823  205632  0.00	-	0	.
SCAF14367	15kDa	cds	204451  204388  0.00	-	0	.
SCAF14367	15kDa	cds	204181  204132  0.00	-	2	.
SCAF14367	15kDa	cds	204054  203926  0.00	-	0	.

De totes maneres, seria molt més fiable si es pugués fer l'anotació definitiva tota de l'output d'una sola predicció. En el cas que aquí es discuteix, però, ha sigut impossible degut al problema de la no detecció del codó UGA per la resta de programes.

En qualsevol cas, i per anar acabant, per la predicció d'una selenoproteïna sempre és necessari passar la seqüència pel programa SECISearch. Juntament amb els resultats obtinguts de l'element SECIS sembla que seria molt interessant poder disposar de la modificació del Geneid preparat especialment per la detecció d'UGA in-frame. És una variació del programa que serveix especialment per l'anotació de les selenoproteïnes (Castellano et al, 2001).