Per tal de poder validar quines són les millors prediccions de gens pels diferents programes (Geneid, Genscan, Fgenesh i Grail), així com determinar quina és l'estructura exònica més probable per cada gen, s'ha utilitzat el programa Megablast.
El Megablast permet comparar la subseqüència contra una base de dades de ESTs específicament humans utlitzant el BLASTN.Cada grup d'aquests ESTs ha sigut alineat amb les prediccions de gens, de manera que es pot començar a determinar quines són les millors prediccions ja que aquestes estaran suportades per l'alineament dels ESTs.
Com ja s'ha esmentat anteriorment, es decideix treballar a partir de subseqüències, de forma que es busquen els ESTs per cada subseqüència per separat.
Per tal de poder analitzar cada una de les subseqüències cal que l'inici d'aquesta es correspongui amb la coordenada 0 perquè sinó els resultats del Megablast no es correpondran amb les coordenades inicials. El Megablast dóna els ESTs per a cada seqüència sense tenir en compte quina posició ocupaven.
bash-2.05b$ gawk '$4>11744 && $5<154755{OFS="\t"; $4=$4-11744+1;$5=$5-11744+1;print }' GENEID/geneid.gff FGENESH/fgenesh.gff GENESCAN/genescan.gff GRAIL/grail.gff > fin1est.gff
bash-2.05b$ gawk '$4>152755 && $5<233502{OFS="\t"; $4=$4-152755+1;$5=$5-152755+1;print }' GENEID/geneid.gff FGENESH/fgenesh.gff GENESCAN/genescan.gff GRAIL/grail.gff > fin2est.gff
bash-2.05b$ gawk '$4>270735 && $5<355258{OFS="\t"; $4=$4-270735+1;$5=$5-270735+1;print }' GENEID/geneid.gff FGENESH/fgenesh.gff GENESCAN/genescan.gff GRAIL/grail.gff > fin3est.gff
bash-2.05b$ gawk '$4>369224 && $5<378480{OFS="\t"; $4=$4-369224+1;$5=$5-369224+1;print }' GENEID/geneid.gff FGENESH/fgenesh.gff GENESCAN/genescan.gff GRAIL/grail.gff > fin4est.gff
bash-2.05b$ gawk '$4>382706 && $5<464391{OFS="\t"; $4=$4-382706+1;$5=$5-382706+1;print }' GENEID/geneid.gff FGENESH/fgenesh.gff GENESCAN/genescan.gff GRAIL/grail.gff > fin5est.gff
Amb aquesta comanda s'estan creant 5 fitxers fasta diferents, cadascun dels quals conté només els nucleòtids compresos entre les coordenades d'inici i final de la subseqüència.
Els resultats que s'obtenen del Megablast, no es troben en format gff, de forma que cal utilitzar la següent comanda awk per transformar-los:
gawk '$1!="#"{print $1,"megablast","hsp",$7,$8,".",".",".",$2}' megablast.subseq1 > megablast.subseq1.gff
Els resultats obtinguts per a cada una de les subseqüències els trobareu a l'apartat de resultats.