Si tenemos en cuenta que un motivo consiste en una región bien definida
que tiene un significado funcional, podemos deducir la importancia que
conlleva el hecho de encontrar motivos similares ya conocidos en un conjunto
de secuencias. De igual modo, encontrar un motivo similar que desconocíamos previamente,
en un conjunto de secuencias que juegan un papel biológico similar, puede ser la
evidencia de que este motivo posee una función concreta.
Con este programa llevamos a cabo lo que conocemos como pattern discovery,
es decir, una búsqueda de patrones desconocidos en un número N de secuencias.
Esto se convertiría en un faenoso trabajo si no dispusiésemos de programas como éste,
sin la bioinformática. Gracias al algoritmo iterativo empleado, la eficiencia y rapidez con la
que podremos realizar esta búsqueda nos facilita gratamente el trabajo.
Durante la elaboración del programa hemos pensado en la posibilidad de introducir algunas
modificaciones que, nos han parecido, aumentaban su eficacia, también algunos obstáculos nos
han hecho replantearnos algún punto de la base previa que disponíamos del algoritmo EM, es
ahora el momento de comentar cuáles han sido, cómo los hemos modificado y cuál ha sido el motivo
por el que creemos que en cada momento hemos encontrado la mejor solución. También os daremos algunas
recomendaciones en el uso de nuestro programa.
Por un lado, nos dimos cuenta que, en el momento de calcular los scores, necesitábamos dividir
puntuaciones que podían tener alguna representación, eran mayores que 0, entre números muy negativos,
cosa que nos conducía a disminuir considerablemente la significación de éstos. Decidimos igualar
todos aquellos números negativos a un número cercano a cero antes de llevarlos a este punto. De este modo se dio un
peso mucho más representativo a cada una de las posiciones. Esto iba a facilitar también el correcto funcionamiento
de la posterior modificación que realizamos.
Esta modificación ha sido en la normalización de las matrices. Pensamos en la posibilidad
de introducir una segunda normalización haciendo el logaritmo en cada matriz (si tenemos en cuenta que no podemos hacer
logaritmos de números negativos, vemos que de nuevo en este punto, la sustitución por un número cercano a cero,
que comentamos arriba, nos va a ser muy útil). Esto nos permite
establecer una distribución normal ( Gaussiana ) de los ratios con valores centrados en 0.
Con esto conseguimos obtener mejores resultados, encontrando, en cada una de las nuevas
búsquedas, motivos más similares entre ellos y con scores más elevados. Esto mejoró cuando aplicamos
logaritmos en base 2 en vez de base 10. Empleamos esta corrección ya que a menudo se considera
2X como el nivel mínimo de diferencia aceptable como significativo.
Después de utilizar el programa repetidas veces y con diferentes grupos de secuencias, comprobamos
con satisfacción los positivos resultados obtenidos. Cabe comentar que no siempre vamos a obtener
resultados igualmente satisfactorios. Nos permitimos recomendar longitudes de motivos que vayan entre
4 y 9 nucleótidos. Motivos menores no van ha tener una gran significancia, y motivos mayores vamos a
poderlos encontrar, con puntuaciones muy elevadas, pero no en todas las secuencias introducidas, incluso,
depende cómo, tan solo en una de ellas, cosa que no es lo que nos interesa en este caso, sinó encontrar
motivos comunes. En cuanto al número de iteraciones, lo más recomendable es que llegasen a convergencia