Predicció de gens

La predicció de gens s'ha realitzat amb els programes informàtics Geneid, Genscan, Fgenesh (o Softberry) i Grail. Aquests es basen en l'existència d'un biaix en la composició les regions codificants respecte a les no codificants. Aquest biaix és provocat tan per un ús diferencial d'aminoàcids com també de codons sinònims.També es tenen en compte els senyals de la seqüència com són l'inici i el final de transcripció i els acceptors i donors d'splicing.

El programa Grail, a més a més es basa en predicció de gens per homologia a d'altres gens ja existents en bases de dades. Per aquesta raó hauríem d'esperar predicció diferent i en molts casos millor.

Per córrer aquests programes s'ha introduït la seqüència enmascarada en format fasta. La sortida que dóna cada un d'ells és diferent i per això ha calgut fer unes comandes per tal de tenir-les totes en format GFF.

- En el cas de GENEID la sortida ja és en GFF i per tant no ha calgut fer cap tipus de transformació.

- Pel que fa a GENSCAN, els resultats s'han modificat amb la següent comanda:

 

gawk 'BEGIN{OFS="\t"} $2 ~ /Init|Term|Intr/ { print "ref|NT_006431.13|_3", "gencan", $2, start=($4<$5 ? $4 : $5), end=($5<$4 ? $4 : $5), $13, $3, $7, $1; }' genscanresults.txt | \ sed 's/\.[0-9][0-9]$//' > genscan.gff

- Per als resultats de FGENESH s'ha utilitzat la comanda anterior però adaptada en funció dels camps de l'output file d'aquest programa.( FGENESH resultats en gff)

- El programa GRAIL ha hagut d'ésser modificat amb l'emacs per les característiques dels resultats donats, ja que aquests apareixen per blocs corresponents als gens, i utilitzant la següent comanda awk s'ha obtingut el gff.

Un cop ja obtinguts els reusltats en GFF, s'ha executat el programa gff2ps a cada un d'ells. D'aquesta manera s'ha pogut obtenir un format ps que, a través de la següent comanda, s'ha transformat a format jpg.

convert -rotate 90 -density 150 arxiu.ps > arxiu.jpg

Per tal de generar un gràfic que premeti observar les prediccions de tots els programes alhora, s'ha utilitzat la següent comanda.

A continuació es mostra el gràfic de la seqüència on s'exposen tots els resultats alhora, i seguidament aquells obtinguts amb cada un dels programes .

Per altra banda, per generar el gràfic general també s'ha utilitzat la seqüència emmascarada alineada ( vegeu format gff ). Aquesta seqüència, com ja s'havia dit anteriorment, mostra cada un dels elements repetitius continguts en la seqüència problema. Si s'observa detingudament el gràfic, les regions on apareixen les prediccions de gens, són regions on hi ha menor densitat d'elements repetitius.

Gràfic General

Fent un simple cop d'ull es pot veure que hi ha un cert consens entre els programes alhora de predir els gens. No obstant, hi ha petites diferències que a continuació es comentaran.

Cadena en forward

- El primer gen que apareix a la cadena està predit pel programa Genescan únicament.

- El segon gen o cluster de gens és predit per tots els programes excepte el Grail. Aquest cluster es correspon al gen número 2 de Genescan, el número 1 del Geneid i el número 1 del Fgenesh, sent aquest últim el més llarg.

- El tercer cluster predit es correspon al gen número 3 del Genescan i en la mateixa regió que aquest hi ha unes prediccions de Grail que són els gens 7.1 i 2.1.

- El quart cluster que apareix inclou les prediccions número 5 de Genscan, número 3 de Geneid i el número 3 de Fgenesh i 3.1 de Grail. És important remarcar que aquest gen està predit amb gran concordància pels programes esmentats i que el programa Grail no l'ha predit.

- El cinquè cluster inclou les prediccions número 6 de Genscan, número 4 del Geneid, número 4 del Fgenesh. El programa Grail ha predit dues variants del mateix gen per a aquesta regió que són la 5.1 i la 5.2.

- Per acabar s'observa que el programa Grail prediu un últim gen que cap dels altres programes ha predit.

Cadena en reverse

A simple vista es pot observar que hi ha menys gens que en la cadena anterior.

- El primer gen predit és el corresponent al número 1.1 del programa Grail.

- El segon gen o cluster de gens inclou el gen número 2 del programa Geneid, el número 2 predit pel Geneid, el número 8.1 del Grail i el 4 del Genescan

- A continuació s'observa que el programa Grail ha predit un gen que cap dels altres programes mostra.

- Es pot veure un últim cluster que conté els gens 6.1 del programa Grail, els gens 5 i 6 del Fgensh, la predicció 5 del Geneid i la número 7 del Genscan

A continuació s'adjunta una taula que permet accedir a cadascun dels gràfics generats a partir de la predicció de gens per a cada programa:

Gràfic GENEID

Gràfic GENSCAN
Gràfic FGENESH
Gràfic GRAIL