Predicción de promotores






Introducción



Matrices de Peso Posicionales(PWM)


PWM es un motivo descriptivo que intenta capturar la variabilidad intrínseca característica de los patrones de una secuencia en una secuencia problema.

PWM usualmente derivan de un conjunto de secuencias alineadas relacionadas funcionalmente.
La matrix muestra cuántas veces un nucleótido determinado ha sido observado en una posición dada. Normalizamos la matriz porque contiene valores absolutos de frecuencias y no son los que nos interesan, para conseguir las frecuencias relativas dividimos el valor en cada posición de la matriz entre el número de secuencias usado para construirla.


Position Weight Matrix:TRANSFACT.


Secuencias en formato FASTA


Usamos secuencias en un formato predeterminado, el formato FASTA , que empieza con una línea de descripción de la secuencia, seguida por las líneas de la secuencia. La línea de descripción se distingue de la secuencia mediante (">") en la primera posición.


Para obtener secuencias en formato FASTA:NCBI.




Objectivo del programa



Este programa ha sido creado para predecir posibles regiones promotoras de genes a lo largo de una secuencia de DNA usando el método de las Position Weight Matrix.



MATERIAL

Position Weight Matrix: TATA box y/o GC box y/o otras matrices(TRANSFAC)    

Secuencias problema en formato FASTA   

Sistema Operativo: LINUX (UNIX)

Lenguaje de programación: Perl



EL PROGRAMA: PROMFINDER : PROMFINDER



Para poder usar el Promfinder necesitas:

-opciones

fichero_secuencia.fa

fichero_matriz.txt



  1. El fichero_secuencia.fa puede tener una o más secuencias

  2. Matrix.txt puede contener una o más matrices

El programa está estructurado en tres partes :

1. Inicializando el programa:

Declaración de las opciones del programa. También declaramos todas las variables que usaremos.


2. Procesando la secuencia:

El programa lee la secuencia o secuencias y ejecuta todas las rutinas para todas las secuencias. El primer paso es capturar el identificador (">.......") de cada secuencia de modo que después podamos identificarlas en los resultados. Lo siguiente es construir un vector con la secuencia.
Ahora la secuencia ya está lista para ser escaneada por la matriz.

2.1) Procesando la PWM:

Esta parte se repite para cada secuencia tantas veces como matrices haya.

a) Abrir Matrix.txt
b) Normalizamos la matriz.
El resultado de esta operación es la matriz con las frecuencias relativas de cada nucleótido en las diferentes posiciones de la matriz.
c) Para cada matriz calculamos su secuencia consenso con su score correspondiente.


2.2) Evaluación de candidatos:

Cada candidato tiene una longitud especificada por el nº de posiciones de la matriz.
El programa sólo mostrará aquellos candidatos que hayan sobrepasado el punto de corte definido por el usuario o asignado por defecto.

a) Estimando el score o puntuación de los candidatos.
b) Si el score es lo suficientemente alto, cuando la ejecución de Promfinder termine, el programa mostrará: la posición inicial, la posición final, el score,la secuencia de cada candidato, y la matriz con la que se ha obtenido.
c) Cerrar fichero_matriz.txt si ya no hay más matrices. Si aún hay más matrices, volver al punto b) de la sección 2.1
d) Cerrar fichero_secuencia.fa si ya no hay más secuencias. Si aún hay secuencias, volver a la sección 2




3. Representación Gráfica y final de Promfinder:

Mientras Promfinder corre va almacenando todas las secuencias , los candidatos (y sus posiciones inicial y final), los nombres de las matrices..., para poder representar después graficamente estos resultados. La representación gráfica permite visualizar la posición exacta de los candidatos dentro de la secuencia problema.

Cerrar el Promfinder.



Opciones de Promfinder :

-v: información sobre la ejecución del programa,
indicando cada paso que da en el shell mediante la subrutina "sub print_mess".
-m: Información sobre la matriz, nº de matrices contenidas en el fichero, las secuencias consenso y sus puntuaciones (score).
-s: Información sobre la secuencia. Promfinder mostrará el nombre de la secuencia (el identificador FASTA), su nº de nucleótidos (longitud) y el contenido de G y C (en valor absoluto y en %).
-t x.x: Especificar el punto de corte (threshold) Si el usuario no usa esta opción , el programa asignará un valor por defecto (0.8).



Descargar Promfinder



Ir al principio de la página

Volver a la página de inicio