Partint de les seqüències en qüestió i de les matrius contingudes en TRANSFAC (per invertebrats) hem fet còrrer el programa MatScan. Amb això aconseguim un fitxer en format GFF a partir del qual obtindrem tota la informació de totes les seqüències que utilitzarem.
Un cop hem obtingut aquest fitxer, hem desenvolupat un script per calcular quants cops apareix cada matriu, que és el mateix que calcular la freqüència en què apareix cada lloc d'unió per cert factor de transcripció. Per tant, hem de dividir el càlcul dels cops que es repeteix una determinada matriu entre el nombre de Kb del que partim.
El que hem de fer un cop tenim els resultats és comprovar la seva fiabilitat. Per fer-ho, haurem de buscar la conservació de cada site analitzat i posteriorment, mirar el grau d'especificitat de les matrius.
Per dur-ho a terme utilitzarem el programa conservation_rate.pl i farem un control de les matrius amb un percentatge de conservació més alt mitjançant la generació de matrius aleatòries, de les quals en calcularem la freqüència com en l'apartat anterior.
Aquest programa parteix d'un fitxer GFF amb les prediccions dels llocs d'unió a factors de transcripció, de les matrius (format transfac) i dels alineaments de Drosophila Melanogaster amb algunes espècies properes.
De cada site predit, el programa utilitzarà la matriu corresponent, i l'aplicarà a aquestes espècies buscant com de similars són a aquesta matriu i per tant, al site predit inicialment en Drosophila Melanogaster. Estem per tant, repetint el procés seguit pel MatScan però sobre la resta d'espècies.
Podem definir dos paràmetres dins el programa: el llindar o puntuació a partir de la qual considerarem que hi ha conservació (Threshold de 0.85), i el nombre mínim d'espècies en les que volem que es conservi el lloc d'unió predit (criteri de conservació), en el nostre cas serà de 3 a part de Drosophila Melanogaster. Finalment, obtenim un fitxer on per cada matriu ens dóna el percentatge de hits conservats corresponent a l'alineament global, i el corresponent per a cada espècie per separat.
Però dels resultats que hem obtingut amb el conservation_rate hi pot haver matrius no específiques, amb alts percentatges de conservació però no informatives. Per tal d'evitar aquest fet hem creat un programa (Matrius aleatòries) que generarà 20 matrius aleatòries per cadascuna de les matrius originals. Tot seguit, amb aquestes matrius, repetirem l'anàlisi amb el MatScan i el conservation_rate.pl per tal d'obtenir les prediccions i els precentatges de hits conservats corresponents.
Per tal d'analitzar la distribució de conservació i així poder descartar aquelles matrius no informatives, calcularem la mitjana, la desviació estandard i els z-scores, de cada conjunt de matrius aleatòries amb un script (el z-score ens informa de la relació entre el valor de la matriu inicial amb la mitja del conjunt de matrius aleatòries que li corresponen).
Finalment, també hem utilitzat la base de dades Transfac i el PubMed per saber de quins factors de transcripció parlem i per tant, per poder evaluar la importància dels resultats obtinguts.
Índex | Introducció | Materials i mètodes | Resultats | Conclusions | Referències |