Material y métodos
Material y métodos
Las secuencias que se han analizado en este proyecto son secuencias de ratón a las que se puede acceder en Secuencias
Se ha realizado un programa en el que los pasos principales son:
- Extracción de los tres exones de cada secuencia para crear tres vectores: exons1, exons2, exons3 en los que se encontraban los respectivos exones de cada secuencia.
- A continuación se hizo un código que leyera cada uno de los exones del vector exons1,exons2,exons3, y que fuera cogiendo motivos de una longitud determinada y que los guardara en una nueva variable.Los motivos que se obtuvieron con los terceros exones se guardaron junto con los exones1, ya que en ambos casos se trata de exones constitutivos y se quieren analizar conjuntamente.También se definió que sólo se añadieran aquellos motivos que contuvieran nucleótidos "ACGT" para evitar coger aquellos motivos que contenían "N" (que corresponden a posiciones que pueden contener cualquier nucleótido).
- Una vez se obtuvieron todos los motivos de una longitud determinada, se calculó cuantas veces aparecía cada motivo, con lo que se obtenía una frecuencia absoluta. Luego, para conseguir una frecuencia relativa se hizo un código para que dividiera la frecuencia absoluta entre el número total de motivos encontrados. Esto se hizo tanto para los exones constitutivos como para los alternativos.
- Posteriormente el programa encontraba los motivos biológicos que eran comunes tanto en el grupo de exones constitutivos como en el de los alternativos, y directamente realizaba la resta entre las frecuencias relativas de los mismos.
- De manera similar, también se consiguió obtener aquellos motivos que se encontraban exclusivamente entre los exones constitutivos y los que se encontraban tan sólo en los exones alternativos.
- Al programa completo se puede acceder mediante el siguiente link: Programa
Con este programa se consigue extraer de las secuencias proporcionadas, aquella información que nos es útil para analizar mediante el programa R. El programa R es un paquete estadístico que se utilizó para analizar la distribución de los motivos comunes, representándolos en un histograma. Una vez se sabe la distribución de los datos se comprobará si aquellos motivos que aparentemente pueden ser exclusivos o mayoritarios en exones alternativos se debe al azar. Se buscó en una tabla (ejemplo tabla) el valor de Z-score que será el valor de referencia para discriminar aquellos motivos cuya frecuente aparición no se debe al azar. Cada motivo tendrá un valor de Z-score asignado que R ha permitido calcular. El valor Z-score se calcula a partir de la mediana y la desviación estándar que también R ha permitido calcular. Comparando el valor de Z-score de cada motivo con el de referencia se podrá discriminar aquellos motivos significativamente presentes en los exones alternativos y en los constitutivos. Para determinar esto, se han buscado los valores de z-score en tablas para realizar la separación de los motivos.
Todo el procedimiento se repitió cambiando el valor de la longitud de ventana que se quería coger (longitud 6,7 y 8).
