Discusión

El programa desarrollado en este trabajo se basa plenamente en el algoritmo EM. Éste, intenta representar los parámetros del modelo de probabilidad que ha podido generar las secuencias de la entrada para así, poder encontrar patrones comunes a dichas secuencias. Por otra parte, utiliza heurísticos para comprobar la calidad de la solución.

Al ejecutar el programa con el archivo prueba.fa, el cual contiene secuencias cortas muy sencillas con el patrón "TATA", los resultados obtenidos son satisfactorios, es decir, encuentra ocurrencias del patrón en las secuencias que lo tienen y no las encuentra en las que no lo tienen.

Por el contrario, al buscar patrones en secuencias complejas de muchos pares de bases, los resultados no son tan satisfactorios. La composición del patrón se ve diluida por la múltiple cantidad de candidatos que no corresponden al patrón. Esto queda patente en la matriz de pesos resultante, en la cual las proporciones para un mismo nucleótido son muy similares en todas las posibles posiciones del motivo.

Bajo nuestro punto de vista, el problema radica en que el peso de todos los candidatos es muy similar y por lo tanto, cuesta dirigir la matriz de pesos hacia la composición del patrón. Los diferentes intentos llevados a cabo para dar más peso a los candidatos que presentaban mayor score han dado como resultado un patrón que tenía tendencia a representar la composición de los candidatos iniciales escogidos al azar.

De todas formas y como ocurre con la mayoría de programas informáticos aplicados a la biología, no son más que una aproximación de la realidad, por lo que los resultados obtenidos nunca pueden ser definitivos y requieren ser contrastados por otros programas y/o experimentos.