PREDICCIÓ DE GENS 'AB-INITIO'

Principalment hi ha tres estratègies de Gene finding: mètodes basats amb la similitud de seqüència (de proteïnes, de cDNAs i ESTs), genòmica comparativa entre diferents espècies i Ab initio gene finding; o combinacions de les anteriors.

Ens centrarem, en primer lloc, en la predicció dels gens 'ab initio' de la regió Alfa Globina utilitzem tres programes de predicció de gens: GENEID, GENSCAN, FGENESH.

Hem començat pel GENEID, corrent la seqüència completa, emmascarada i en format fasta (maskedN.fa).

El programa GENEID ens permet obtenir el fitxer de sortida en format gff i és: GENEIDsencer.gff, i en format geneid, on hi ha també la seqüència de les proteïnes predites GENEIDsencer.geneid.

En segon lloc, hem fet la predicció de gens mitjançant el programa GENSCAN. Els resultats estan en format text, i cal passar-los a gff, per després poder veure'n la representació gràfica. La comanda per a fer el canvi de format és:

gawk 'BEGIN{OFS="\t"} $2 ~ /Term|Intr|Init/ {print "sencer", "genscan", $2, start=($4<$5 ? $4 : $5),end=($5<$4 ? $4 : $5), $13, $3, $7, $1;}' sencer.txt | \sed 's/\.[0-9][0-9]$//' > sencer.gff

El fitxer que obtenim és: GENSCANsencer.gff.

Per últim hem fet la predicció de gens amb el programa FGENESH, el fitxer de sortida també l'obtenim en format text, i per tal de passar-lo a format gff hem d'utilitzar un programa executant-lo de la següent manera:

./programaFGENESH.awk "ENm008_alphaglobin" sencer.fgenesh > sencer.fgenesh.gff

Els resultats del FGENESH en format gff són els del següent FGENESHsencer.gff.

Tot seguit presentem tres taules resum de les prediccions de gens dels tres programes, per tal de facilitar-ne l'anàlisi.


GENEID ORIENTACIÓ EXONS INICI FINAL
gen 1 rev 10 472 23673 1982
gen 2 rev 3 109 43586 37430
gen 3 fwd 5 108 45510 47143
gen 4 rev 12 754 55013 48339
gen 5 fwd 4 294 68309 75776
gen 6 rev 14 582 128266 76704
gen 7 fwd 3 143 142909 144399
gen 8 fwd 3 130 153160 155155
gen 9 fwd 3 142 155997 156707
gen 10 fwd 3 143 162912 163599
gen 11 fwd 3 143 166716 167410
gen 12 fwd 3 104 170486 174379
gen 13 rev 10 328 219339 175532
gen 14 fwd 1 113 221134 221472
gen 15 fwd 11 544 244414 255022
gen 16 rev 11 326 265499 259585
gen 17 fwd 5 198 270682 272815
gen 18 fwd 10 439 274465 277114
gen 19 rev 9 770 278123 351470
gen 20 rev 5 235 360219 357676
gen 21 rev 12 759 361988 372580
gen 22 fwd 1 157 376764 377234
gen 23 fwd 5 175 379400 390343
gen 24 fwd 16 609 391965 493098


GENSCAN ORIENTACIÓ EXONS INICI FINAL
gen 1 fwd 3 87 1871 3830
gen 2 rev 16 695 26374 4511
gen 3 fwd 6 177 38397 47143
gen 4 rev 17 925 55013 48758
gen 5 fwd 4 397 67046 72266
gen 6 fwd 3 216 72547 75776
gen 7 rev 19 746 128266 76704
gen 8 fwd 3 142 142909 144399
gen 9 fwd 3 129 153160 155155
gen 10 fwd 3 141 155997 156707
gen 11 fwd 6 280 162912 167410
gen 12 fwd 5 607 170486 177293
gen 13 rev 10 371 219279 179198
gen 14 fwd 14 636 237927 255600
gen 15 rev 15 435 265499 259269
gen 16 fwd 6 225 270682 272815
gen 17 fwd 11 530 273171 277114
gen 18 rev 29 1909 360585 278249
gen 19 rev 13 767 368162 362284
gen 20 fwd 1 156 376764 377234
gen 21 fwd 17 667 387224 430712
gen 22 rev 1 117 448622 448269
gen 23 fwd 15 544 457006 499860



FGENESH ORIENTACIÓ EXONS INICI FINAL
gen 1 fwd 2 57 1871 3830
gen 2 rev 18 816 26452 4381
gen 3 fwd 5 132 43990 47143
gen 4 rev 16 873 55013 48339
gen 5 fwd 5 400 67046 72266
gen 6 fwd 3 202 72972 75776
gen 7 rev 14 558 109122 76704
gen 8 fwd 3 142 142909 144399
gen 9 fwd 3 129 153160 155155
gen 10 fwd 3 141 155997 156707
gen 11 fwd 3 142 162912 163599
gen 12 fwd 3 142 166716 167410
gen 13 fwd 3 548 170486 177293
gen 14 rev 4 153 182141 179198
gen 15 rev 2 27 219339 218722
gen 16 fwd 13 527 237927 255022
gen 17 rev 15 432 265499 259269
gen 18 fwd 6 225 270682 272815
gen 19 fwd 11 530 273171 277114
gen 20 rev 14 724 307296 278123
gen 21 rev 1 293 337026 336145
gen 22 rev 5 259 360219 357676
gen 23 rev 13 782 370965 361988
gen 24 fwd 1 156 376764 377234
gen 25 fwd 14 496 388134 401579
gen 26 fwd 3 228 414681 417229
gen 27 rev 1 117 448622 448269
gen 28 fwd 8 293 468052 495628



Continuant amb la predicció de gens, hem passat els tres outputs dels programes GENEID, GENSCAN i FGENESH a format ps, amb les comandes:

export PATH=/disc8/soft/perl/bin/:/disc8/bin/:$PATH

gff2ps nomdelarxiu.gff > nomdelarxiu.ps


Després passem l'arxiu en format ps a format png, per tal de visualitzar els gràfics, amb el kview o amb l'electric eyes (ee):

convert -rotate 90 nomdelarxiu.ps nomdelarxiu.png

export PATH=$PATH:/disc8/soft/R/bin

kview nomdelarxiu.png



Fig.2 Distribució de les tres prediccions de gens en la regió Alfa Globina.(allinone.png)


Per tal d'observar amb més detall la distribució gènica de la nostra regió, l'hem passat a format ps dividint-la en cinc subregions:

gff2ps -B 2 -P 5 RESULTATSFGENESH/sencer.fgenesh.gff RESULTATSGENEID/sencerGENEID.gff RESULTATSGENSCAN/sencerGENSCAN.gff > allinone_B2P5.ps

(veure allinone.ps)

Cada una de les subregions conté 100000pb. Amb la comanda esmentada més amunt, hem passat de format ps a png per poder visualitzar les imatges corresponents.

SUBREGIÓ PNG
0-100000 PNG1
100000-200000 PNG2
200000-300000 PNG3
300000-400000 PNG4
400000-500000 PNG5

Així, podrem decidir millor com dividim la seqüència per tal d'estudiar després la distribució dels ESTs i validar els gens.







enrere >>> endavant