Para realizar el programa SARDOR ALINEATOR nos hemos basado en el articulo "CLUSTALW : improving the sensitivity of progressive multiple sequence alignment through sequence weighting, posicion-specific gap penalties and weight matrix choice" de Julie D.Thompson, Desmond G.Higgins y Toby J.Gibson del EMBL, publicado en la revista Nucleic Acids Research en 1994.

En esta seccion veremos, paso por paso, como el programa CLUSTALW desarrolla el MSA . SARDOR ejecuta el algoritmo de la misma manera que el original, aunque como comprobaremos seguidamente existen ciertas variaciones entre los dos programas.

LOS TRES PASOS BASICOS DEL MSA

MATRIZ DISTANCIAS
A partir de un alineamiento de todas las secuencias con todas combinandolas de dos a dos, obtenemos los matches de cada una de las secuencias vs las otras. La distancia de una secuencia respecto a otra se calculara dividiendo el numero de aciertos entre el numero total de aminoacidos comparados y restandole a este valor 1 . Asi pues podemos generar una matriz de distancias triangular n x n, siendo n el numero de secuencias a alinear. Para este primer paso usaremos el GEP y GOP fijado por el usuario y los valores de match y mismatch de la primera de las matrices Blosum o PAM seleccionadas.
Arbol guia:
A partir de un alineamiento de todas las secuencias con todas combinandolas de dos a dos, obtenemos los matches deA partir de la matriz conseguida anteriormente ClustalW genera un arbol filogenetico a partir del programa Neighbour Joining, produciendo un arbol sin raiz con una longitud de las mismas proporcional a la divergencia estimada. A partir de estos calculos el programa determina un peso para cada secuencia. El peso es, definido de modo laxo, la "importancia" que se da a cada secuencia . Por ejemplo si en un MSA tenemos secuencias semejantes y otras mas divergentes, estas ultimas tendran mas peso ya que nos interesa que el MSA se guie segun las mas alejadas. Si esto no fuera asi nuestro alineamiento no seria del todo correcto ya que penalizariamos o le dariamos una puntuacion igual en el alineamiento a dos secuencias con distancias evolutivas diferentes, de modo que el peso es una manera de "relativizar" este hecho e intentar estandarizar las secuencias.
En nuestro programa hemos obtenido el peso de una manera aproximada. Sabiendo que es proporcional a la distancia, hemos calculado, para cada secuencia, la media de las distancias de dicha secuencia vs las demas y posteriormente este resultado lo hemos dividido por la distancia maxima, de modo que la secuencia mas divergente se le otorgara mayor puntuacion.
Alineamiento progresivo
A partir de la matriz de distancias podemos saber que dos secuencias tienen la menor distancia entre ellas. Estas dos secuencias las "fusionaremos" y formaran parte de un mismo grupo. Con este grupo recalcularemos la matriz de distancias ( es decir alinearemos este grupo vs todas las demas y obtendremos nuevas distancias). Una vez hecho esto volveremos a mirar que dos secuencias ( o grupos de secuencias ) tienen la distancia menor y volveremos a fusionar y recalcular, y asi progresivamente hasta que ya no nos quede ninguna secuencia por añadir.

MEJORAS EN EL MSA

Computacion Pesos

A partir de un alineamiento de todas las secuencias con todas combinandolas de dos a dos, obtenemos los matches deEl peso obtenido anteriormente se usa en el proceso de alineamiento del modo siguiente : Imaginemos que en el grupo 1 tenemos las siguientes secuencias :

P E E K S A V

E G F V K S A

S A F G V A D

En el grupo 2 solo tenemos una secuencia:

E G A V A S D

Supongamos que queremos computar la segunda posicion :

Score = (M (E,G)*W1*W4 + M (G,G)*W2*W4+ M (A,G)*W3*W4)/3

Esto lo realizaremos para cada una de las posiciones.

GOP dinamico

Como sabemos hemos fijado un valor inicial de GOP aunque a partir de la primera ronda de alineamientos el GOP ira cambiando en base a :

Dependencia de la matriz de pesos : Computaremos la media de los valores de la matriz que en ese momento se use despreciando los valores de la diagonal ( matches).Lo realizaremos para incrementar la exactitud de nuestro alineamiento
Dependencia de la similaridad de las secuencias : incrementaremos el GOP para secuencias poco divergentes evolutivamente. Tomaremos la media de las distancias de las secuencias ( o grupos ) a alinear, le restaremos uno y lo divideremos por cien. Este valor se denomina factor de escalado.
Dependencia de la longitud de las secuencias : Usaremos el logaritmo de la menor de las secuencias a alinear para incrementar el GOP a mas longitud.

De este modo el GOP dinamico se computara como :

GOP = {GOP+ log [min(N,M)]}*Media valores mismatch*Factor de escalado

GEP dinamico

Dependera de la diferencia entre las longitudes de las secuencias a alinear.Si una es mucho mas corta que la otra, el GEP se incrementa para inhibir demasiadas extensiones de GAPs en secuencias cortas. De este modo el GEP se computara como :

GEP=GEP*[1+log (N/M)]

Matriz de Pesos Dinamica

Tanto en SARDOR como en CLUSTALW podemos elegir la serie PAM o bien Blosum. Cuando se va realizando el alineamiento las matrices usadas para evaluar las secuencias van variando ya que cada una de las matrices esta preparada para puntuar secuencias de una determinada distancia evolutiva. De este modo las matrices hechas con secuencias cercanas evaluaran proteinas poco divergentes y viceversa. Veamos para que distancias usamos cada matriz :

PAM : 80-100% Pam20 ; 60-80% Pam60 ; 40-60 % Pam120 ; 0-40 % Pam350.
Blosum : 80-100% Blosum80 ; 60-80% Blosum62 ; 30-60 % Blosum45 ; 0-30 % Blosum30.

Bajar penalizacion segun gaps existentes

Si hay un gap en una posicion, el GOP es reducido en proporcion al numero de secuencias con un gap en esta posicion y el GEP es reducido a la mitad. Asi pues el nuevo GAP es :

GOP=GOP*0.3*(nº secuencias sin gap/nº de secuencias)

Gap incrementado cerca de gaps existentes

Si una posicion no tiene Gaps pero esta a ocho posiciones de un gap el GOP se incrementa:

GOP =GOP*{2+[(8-distancia al gap)*2]/8}

Otros parametros
Hasta aqui, salvando pequeñas diferencias, nuestro programa usa los mismos parametros que CLUSTALW pero como ahora veremos no hemos incluido algunas consideraciones que si usan en el original :

Reducir penalizacion en subsecuencias hidrofilicas
Si encontramos 5 residuos hidrofilicos se considera una subsecuencia hidrofilica.Si en ninguna posicion no hay gaps y ninguna de las secuencias tiene esta subsecuencia, el GOP se reduce un tercio
Penalizacion especifica de residuo
Si no hay subsecuencia hidrofilica y la posicion a tratar no tiene gap el GOP se multiplica segun una matriz que contiene valores para las parejas de residuos. Si hemos de considerar varias combinaciones de residuos hallaremos la media de las puntuaciones.
Divergencia en las secuencias
Para mejorar el alineamiento, CLUSTALW ofrece la opcion que las secuencias de menos de un 40% de identidad entren en el proceso de alineamiento cuando las secuencias mas cercanas ya han sido alineadas. De este modo la tarea es mucho mas facil ya que es complicado alinear secuencias demasiado remotas.