ARTICULO



SARDOR ALINEATOR beta v1.0 #Articulo#

Para realizar el programa SARDOR ALINEATOR nos hemos basado en el articulo "CLUSTALW : improving the sensitivity of progressive multiple sequence alignment through sequence weighting, posicion-specific gap penalties and weight matrix choice" de Julie D.Thompson, Desmond G.Higgins y Toby J.Gibson del EMBL, publicado en la revista Nucleic Acids Research en 1994.

En esta seccion veremos, paso por paso, como el programa CLUSTALW desarrolla el MSA . SARDOR ejecuta el algoritmo de la misma manera que el original, aunque como comprobaremos seguidamente existen ciertas variaciones entre los dos programas.

LOS TRES PASOS BASICOS DEL MSA

MEJORAS EN EL MSA

  • Computacion Pesos

  • A partir de un alineamiento de todas las secuencias con todas combinandolas de dos a dos, obtenemos los matches deEl peso obtenido anteriormente se usa en el proceso de alineamiento del modo siguiente : Imaginemos que en el grupo 1 tenemos las siguientes secuencias :

    1. P E E K S A V
    2. E G F V K S A
    3. S A F G V A D

      En el grupo 2 solo tenemos una secuencia:

    4. E G A V A S D

    Supongamos que queremos computar la segunda posicion :

    Score = (M (E,G)*W1*W4 + M (G,G)*W2*W4+ M (A,G)*W3*W4)/3

    Esto lo realizaremos para cada una de las posiciones.

  • GOP dinamico

    Como sabemos hemos fijado un valor inicial de GOP aunque a partir de la primera ronda de alineamientos el GOP ira cambiando en base a :

    • Dependencia de la matriz de pesos : Computaremos la media de los valores de la matriz que en ese momento se use despreciando los valores de la diagonal ( matches).Lo realizaremos para incrementar la exactitud de nuestro alineamiento

    • Dependencia de la similaridad de las secuencias : incrementaremos el GOP para secuencias poco divergentes evolutivamente. Tomaremos la media de las distancias de las secuencias ( o grupos ) a alinear, le restaremos uno y lo divideremos por cien. Este valor se denomina factor de escalado.

    • Dependencia de la longitud de las secuencias : Usaremos el logaritmo de la menor de las secuencias a alinear para incrementar el GOP a mas longitud.

    De este modo el GOP dinamico se computara como :

    GOP = {GOP+ log [min(N,M)]}*Media valores mismatch*Factor de escalado

  • GEP dinamico

    Dependera de la diferencia entre las longitudes de las secuencias a alinear.Si una es mucho mas corta que la otra, el GEP se incrementa para inhibir demasiadas extensiones de GAPs en secuencias cortas. De este modo el GEP se computara como :

    GEP=GEP*[1+log (N/M)]

  • Matriz de Pesos Dinamica

    Tanto en SARDOR como en CLUSTALW podemos elegir la serie PAM o bien Blosum. Cuando se va realizando el alineamiento las matrices usadas para evaluar las secuencias van variando ya que cada una de las matrices esta preparada para puntuar secuencias de una determinada distancia evolutiva. De este modo las matrices hechas con secuencias cercanas evaluaran proteinas poco divergentes y viceversa. Veamos para que distancias usamos cada matriz :

    • PAM : 80-100% Pam20 ; 60-80% Pam60 ; 40-60 % Pam120 ; 0-40 % Pam350.

    • Blosum : 80-100% Blosum80 ; 60-80% Blosum62 ; 30-60 % Blosum45 ; 0-30 % Blosum30.

  • Bajar penalizacion segun gaps existentes

    Si hay un gap en una posicion, el GOP es reducido en proporcion al numero de secuencias con un gap en esta posicion y el GEP es reducido a la mitad. Asi pues el nuevo GAP es :

    GOP=GOP*0.3*(nº secuencias sin gap/nº de secuencias)

  • Gap incrementado cerca de gaps existentes

    Si una posicion no tiene Gaps pero esta a ocho posiciones de un gap el GOP se incrementa:

    GOP =GOP*{2+[(8-distancia al gap)*2]/8}

Otros parametros

Hasta aqui, salvando pequeñas diferencias, nuestro programa usa los mismos parametros que CLUSTALW pero como ahora veremos no hemos incluido algunas consideraciones que si usan en el original :

  • Reducir penalizacion en subsecuencias hidrofilicas

    Si encontramos 5 residuos hidrofilicos se considera una subsecuencia hidrofilica.Si en ninguna posicion no hay gaps y ninguna de las secuencias tiene esta subsecuencia, el GOP se reduce un tercio

  • Penalizacion especifica de residuo

    Si no hay subsecuencia hidrofilica y la posicion a tratar no tiene gap el GOP se multiplica segun una matriz que contiene valores para las parejas de residuos. Si hemos de considerar varias combinaciones de residuos hallaremos la media de las puntuaciones.

  • Divergencia en las secuencias

    Para mejorar el alineamiento, CLUSTALW ofrece la opcion que las secuencias de menos de un 40% de identidad entren en el proceso de alineamiento cuando las secuencias mas cercanas ya han sido alineadas. De este modo la tarea es mucho mas facil ya que es complicado alinear secuencias demasiado remotas.


Copyright Del Toro & Nicolas, all rights reserved, 2003