Introducción



Existen gran multitud de patrones conocidos, tanto en las secuencias de aminoácidos de las proteínas como en las secuencias de ADN, que tienen gran importancia para la funcionalidad de la propia proteína o gen así como de la célula. En el ADN encontramos, por ejemplo secuencias promotoras de los genes (TATA box entre otras muchas), secuencias donadoras y aceptoras de splicing, etc. En el caso de las proteínas tenemos: dominios transmembrana, dominios de unión a calcio, dominios de dedos-zinc (zinc-fingers), etc.

Por otro lado, todavía existen muchísimos patrones que nos son desconocidos y que seguramente tienen un papel igual o más importante que los que ya conocemos. Por este motivo, es de vital importancia el reconocimiento de patrones nuevos comunes a N secuencias con función biológica similar. Esto será indicativo de que dicho patrón tiene alguna función concreta. Hoy en día, el reconocimiento de patrones nuevos, adquiere aún mayor importancia debido al vertiginoso progreso en lo que se refiere a la secuenciación de genomas completos de organismos, en los cuales se esconde multitud de información que no sabemos descifrar.





El objetivo de este método es estimar los parámetros de un modelo probabilístico que podría haber generado las secuencias de entrada. Este modelo tiene dos componentes:

De este modo conseguimos descubrir patrones nuevos comunes a las secuencias entradas. Este método se puede utilizar tanto en secuencias de proteínas como de ADN.
Este algoritmo requiere una entrada con las secuencias a analizar y proporciona como salida una representación del patrón común encontrado (no necesariamente ha de haber) junto con las mejores ocurrencias del patrón resultante en las secuencias.

Consta básicamente de tres pasos: Una vez realizados estos tres pasos se repiten los pasos E y M.

El algoritmo se detiene cuando se produce convergencia de los resultados, es decir, cuando tras múltiples iteraciones de los pasos E y M, la calidad de la solución no mejora. Para comprobar si se produce convergencia hace falta un heurístico que compare la solución de cada vuelta con la de la vuelta anterior.

Otro sistema de parar el algoritmo es poner un límite máximo de iteraciones, de modo que cuando llegue a tal límite se detenga. Normalmente se combinan ambos sistemas de forma que se detenga cuando se produzca uno de los dos.

En cada iteración, la matriz de pesos del motivo representa mejor los segmentos comunes a todas las secuencias ya que estos tienen una composición similar y conducen la matriz hacia esa dirección. En cambio, el resto de segmentos son diferentes y por lo tanto su composición queda diluida en comparación con el motivo común.