Principalment hi ha tres estratègies de Gene finding: mètodes basats amb la similitud de seqüència (de proteïnes, de cDNAs i ESTs), genòmica comparativa entre diferents espècies i Ab initio gene finding; o combinacions de les anteriors.
Ens centrarem, en primer lloc, en la predicció dels gens 'ab initio' de la regió Alfa Globina utilitzem tres programes de predicció de gens: GENEID, GENSCAN, FGENESH.
Hem començat pel GENEID, corrent la seqüència completa, emmascarada i en format fasta (maskedN.fa).
El programa GENEID ens permet obtenir el fitxer de sortida en format gff i és: GENEIDsencer.gff, i en format geneid, on hi ha també la seqüència de les proteïnes predites GENEIDsencer.geneid.
En segon lloc, hem fet la predicció de gens mitjançant el programa GENSCAN. Els resultats estan en format text, i cal passar-los a gff, per després poder veure'n la representació gràfica. La comanda per a fer el canvi de format és:
gawk 'BEGIN{OFS="\t"} $2 ~ /Term|Intr|Init/ {print "sencer", "genscan", $2, start=($4<$5 ? $4 : $5),end=($5<$4 ? $4 : $5), $13, $3, $7, $1;}' sencer.txt | \sed 's/\.[0-9][0-9]$//' > sencer.gff
El fitxer que obtenim és: GENSCANsencer.gff.
Per últim hem fet la predicció de gens amb el programa FGENESH, el fitxer de sortida també l'obtenim en format text, i per tal de passar-lo a format gff hem d'utilitzar un programa executant-lo de la següent manera:
./programaFGENESH.awk "ENm008_alphaglobin" sencer.fgenesh > sencer.fgenesh.gff
Els resultats del FGENESH en format gff són els del següent FGENESHsencer.gff.
Tot seguit presentem tres taules resum de les prediccions de gens dels tres programes, per tal de facilitar-ne l'anàlisi.
GENEID | ORIENTACIÓ | EXONS | AÀ | INICI | FINAL |
gen 1 | rev | 10 | 472 | 23673 | 1982 |
gen 2 | rev | 3 | 109 | 43586 | 37430 |
gen 3 | fwd | 5 | 108 | 45510 | 47143 |
gen 4 | rev | 12 | 754 | 55013 | 48339 |
gen 5 | fwd | 4 | 294 | 68309 | 75776 |
gen 6 | rev | 14 | 582 | 128266 | 76704 |
gen 7 | fwd | 3 | 143 | 142909 | 144399 |
gen 8 | fwd | 3 | 130 | 153160 | 155155 |
gen 9 | fwd | 3 | 142 | 155997 | 156707 |
gen 10 | fwd | 3 | 143 | 162912 | 163599 |
gen 11 | fwd | 3 | 143 | 166716 | 167410 |
gen 12 | fwd | 3 | 104 | 170486 | 174379 |
gen 13 | rev | 10 | 328 | 219339 | 175532 |
gen 14 | fwd | 1 | 113 | 221134 | 221472 |
gen 15 | fwd | 11 | 544 | 244414 | 255022 |
gen 16 | rev | 11 | 326 | 265499 | 259585 |
gen 17 | fwd | 5 | 198 | 270682 | 272815 |
gen 18 | fwd | 10 | 439 | 274465 | 277114 |
gen 19 | rev | 9 | 770 | 278123 | 351470 |
gen 20 | rev | 5 | 235 | 360219 | 357676 |
gen 21 | rev | 12 | 759 | 361988 | 372580 |
gen 22 | fwd | 1 | 157 | 376764 | 377234 |
gen 23 | fwd | 5 | 175 | 379400 | 390343 |
gen 24 | fwd | 16 | 609 | 391965 | 493098 |
GENSCAN | ORIENTACIÓ | EXONS | AÀ | INICI | FINAL |
gen 1 | fwd | 3 | 87 | 1871 | 3830 |
gen 2 | rev | 16 | 695 | 26374 | 4511 |
gen 3 | fwd | 6 | 177 | 38397 | 47143 |
gen 4 | rev | 17 | 925 | 55013 | 48758 |
gen 5 | fwd | 4 | 397 | 67046 | 72266 |
gen 6 | fwd | 3 | 216 | 72547 | 75776 |
gen 7 | rev | 19 | 746 | 128266 | 76704 |
gen 8 | fwd | 3 | 142 | 142909 | 144399 |
gen 9 | fwd | 3 | 129 | 153160 | 155155 |
gen 10 | fwd | 3 | 141 | 155997 | 156707 |
gen 11 | fwd | 6 | 280 | 162912 | 167410 |
gen 12 | fwd | 5 | 607 | 170486 | 177293 |
gen 13 | rev | 10 | 371 | 219279 | 179198 |
gen 14 | fwd | 14 | 636 | 237927 | 255600 |
gen 15 | rev | 15 | 435 | 265499 | 259269 |
gen 16 | fwd | 6 | 225 | 270682 | 272815 |
gen 17 | fwd | 11 | 530 | 273171 | 277114 |
gen 18 | rev | 29 | 1909 | 360585 | 278249 |
gen 19 | rev | 13 | 767 | 368162 | 362284 |
gen 20 | fwd | 1 | 156 | 376764 | 377234 |
gen 21 | fwd | 17 | 667 | 387224 | 430712 |
gen 22 | rev | 1 | 117 | 448622 | 448269 |
gen 23 | fwd | 15 | 544 | 457006 | 499860 |
FGENESH | ORIENTACIÓ | EXONS | AÀ | INICI | FINAL |
gen 1 | fwd | 2 | 57 | 1871 | 3830 |
gen 2 | rev | 18 | 816 | 26452 | 4381 |
gen 3 | fwd | 5 | 132 | 43990 | 47143 |
gen 4 | rev | 16 | 873 | 55013 | 48339 |
gen 5 | fwd | 5 | 400 | 67046 | 72266 |
gen 6 | fwd | 3 | 202 | 72972 | 75776 |
gen 7 | rev | 14 | 558 | 109122 | 76704 |
gen 8 | fwd | 3 | 142 | 142909 | 144399 |
gen 9 | fwd | 3 | 129 | 153160 | 155155 |
gen 10 | fwd | 3 | 141 | 155997 | 156707 |
gen 11 | fwd | 3 | 142 | 162912 | 163599 |
gen 12 | fwd | 3 | 142 | 166716 | 167410 |
gen 13 | fwd | 3 | 548 | 170486 | 177293 |
gen 14 | rev | 4 | 153 | 182141 | 179198 |
gen 15 | rev | 2 | 27 | 219339 | 218722 |
gen 16 | fwd | 13 | 527 | 237927 | 255022 |
gen 17 | rev | 15 | 432 | 265499 | 259269 |
gen 18 | fwd | 6 | 225 | 270682 | 272815 |
gen 19 | fwd | 11 | 530 | 273171 | 277114 |
gen 20 | rev | 14 | 724 | 307296 | 278123 |
gen 21 | rev | 1 | 293 | 337026 | 336145 |
gen 22 | rev | 5 | 259 | 360219 | 357676 |
gen 23 | rev | 13 | 782 | 370965 | 361988 |
gen 24 | fwd | 1 | 156 | 376764 | 377234 |
gen 25 | fwd | 14 | 496 | 388134 | 401579 |
gen 26 | fwd | 3 | 228 | 414681 | 417229 |
gen 27 | rev | 1 | 117 | 448622 | 448269 |
gen 28 | fwd | 8 | 293 | 468052 | 495628 |
Continuant amb la predicció de gens, hem passat els tres outputs dels programes GENEID, GENSCAN i FGENESH a format ps, amb les comandes:
export PATH=/disc8/soft/perl/bin/:/disc8/bin/:$PATH
gff2ps nomdelarxiu.gff > nomdelarxiu.ps
Després passem l'arxiu en format ps a format png, per tal de visualitzar els gràfics, amb el kview o amb l'electric eyes (ee):
convert -rotate 90 nomdelarxiu.ps nomdelarxiu.png
export PATH=$PATH:/disc8/soft/R/bin
kview nomdelarxiu.png
Fig.2 Distribució de les tres prediccions de gens en la regió Alfa Globina.(allinone.png)
Per tal d'observar amb més detall la distribució gènica de la nostra regió, l'hem passat a format ps dividint-la en cinc subregions:
gff2ps -B 2 -P 5 RESULTATSFGENESH/sencer.fgenesh.gff RESULTATSGENEID/sencerGENEID.gff RESULTATSGENSCAN/sencerGENSCAN.gff > allinone_B2P5.ps
Cada una de les subregions conté 100000pb. Amb la comanda esmentada més amunt, hem passat de format ps a png per poder visualitzar les imatges corresponents.
SUBREGIÓ | PNG |
0-100000 | PNG1 |
100000-200000 | PNG2 |
200000-300000 | PNG3 |
300000-400000 | PNG4 |
400000-500000 | PNG5 |
Així, podrem decidir millor com dividim la seqüència per tal d'estudiar després la distribució dels ESTs i validar els gens.