#primer ordenem el fitxer amb els EST sort +3n -5 -o hg16_dna_79118-215671.spliced.gff hg16_dna_79118-215671.spliced.gff #Eliminem aquells EST que no comencen amb un exo diferent i ho redireccionem a un altre fitxer gawk '{exon[$4" "$5]=$9}END{for (i in exon) print exon[i];}' hg16_dna_79118-215671.spliced.gff | sort | uniq > hg16_dna_79118-215671.splicedfiltrat.gff #Filtrem els Est i els repuntuem segons quantes vegades es repeteixen, com més es repeteixin més score tindran i més ens ho soportaran gawk '{ if ($4" "$5 in sco) { sco[$4" "$5]+=1; } else { sco[$4" "$5]=1; }; exon[$4" "$5" "NR]=$0; printf "#%s", NR; } END{ printf "\n"; for (i in exon) { split(exon[i],m," "); print m[1],m[2],m[3],m[4],m[5],sco[m[4]" "m[5]],m[7],m[8],m[9]; }; }' hg16_dna_79118-215671.spliced.gff | sort +8 -9 +3n -5 > hg16_dna_79118-215671.spliced_rescored.gff #Finalment retallem de tots els EST el que siguin diferent grep -f hg16_dna_79118-215671.splicedfiltrat.gff hg16_dna_79118-215671.spliced_rescored.gff > hg16_dna_.79118-215671.spliced_rescored_modificat.gff