INTRODUCCIÓ

1. Per què alinear les seqüències?

L'alineament de seqüències d'àcids nucleics i aminoàcids representa una font molt important d'informació per a comprendre com han evolucionat els diferents organismes, i per tant és una eina primordial en la biologia evolutiva.

L'anàlisi comparatiu de seqüències mitjançant alineaments globals permet obtenir arbres filogenètics. Com més similars siguin les seqüències, més properes seran aquestes espècies a l'arbre filogenètic i en conseqüència també més properes evolutivament.

A més d'aquesta informació, l'anàlisi global de seqüències ha permès trobar homologies en diferents espècies llançant una determinada seqüència d'interès contra una base de dades. La identificació d'aquestes seqüències homòlogues ha tingut un paper molt important per a la troballa tant de diverses proteïnes estructurals com també d'altres regions genòmiques implicades en patologia com serien les regions codificants per a oncogens.

2. Problemes per alinear seqüències.

El procés d'alineament de dues seqüències quan aquestes presenten un elevat índex de similitud sol ser per regla general un procés simple. Fins i tot alguns d'aquests alineaments es poden fer a simple vista. Vegem-ne un exemple:

 			    seq A ==> V D S C Y
			    seq B ==> V E S L C Y	

L'alineament correcte d'aquesta seqüència seria el següent:

 			    seq A ==> V D S - C Y
			    seq B ==> V E S L C Y	

En aquest cas l'alineament que estem buscant entre les seqüències aminoacídiques serà aquell en què el nombre de coincidències entre els aminoàcids sigui el màxim possible. Per tant el que estarem buscant és l'alineament que fa mínima la distància entre les dues seqüències.

Això és així ja que tenint en compte que no podem conèixer el procés evolutiu real, el més probable és que l'alineament correcte sigui, entre tots els alineaments possibles, aquell alineament que suposi un menor nombre de divergències entre ambdúes seqüències.

El problema es complica quan les seqüències que volem alinear presenten molta divergència, com seria el cas de que pertanyin a espècies molt allunyades filogenèticament. En aquest cas l'alineament manual resulta impossible i cal recòrrer a programes d'alineament informàtic com seria CLUSTAL, CINEMA o TEE-COFFEE.

S'ha de tenir en compte que les longituds de les seqüències que volem alinear

poden arribar a ser de molts residus i per tant és materialment impossible tenir en compte tots els alineaments possibles. Aquest problema va ser solventat l'any 1971 quan Nedleeman and Wunsh van inventar l'algorisme de programació dinàmica per a l'alineament de dues seqüències.

3. Tipus d'alineaments

Trobem dos tipus d'alineaments:

4. Formats d'entrada i sortida.

Format FASTA


El format FASTA es va crear juntament amb programa FASTA, que aparegué com a una alternativa a BLAST per a fer cerques en bases de dades de seqüències.
Aquest format destaca per la seva senzillesa. Consta d'una primera línia amb un identificador de la seqüència precedida pel símbol " > " que indica l'inici de la descripció. Si hi ha vàries descripcions, aquestes sovint van separades per una barra vertical " | " , però a diferència del simbol " > ", el seu ús no es troba acceptat universalment.

La seqüència de nucleòtids o aminoàcids pot ocupar una extensió important. Generalment el que se sol fer és limitar-ne la longitud de cada línea a 72 o 80 caràcters.

Un exemple de seqüència en format FASTA:

>NM_OOOO43
MLGIWTLLPLVLTSVARLSSKSVNAQVTDINSKGLELRKTVTTVETQNLEGLHHDGQFCHKPCPPGERKA
RDCTVNGDEPDCVPCQEGKEYTDKAHFSSKCRRCRLCDEGHGLEVEINCTRTQNTKCRCKPNFFCNSTVC
EHCDPCTKCEHGIIKECTLTSNTKCKEEGSRSNLGWLCLLLLPIPLIVWVKRKEVQKTCRKHRKENQGSH
ESPTLNPETVAINLSDVDLSKYITTIAGVMTLSQVKGFVRKNGVNEAKIDEIKNDNVQDTAEQKVQLLRN
WHQLHGKKEAYDTLIKDLKKANLCTLAEKIQTIILKDITSDSENSNFRNEIQSLV

Format CLUSTAWL

El format CLUSTAL és un dels formats de sortida més emprats pels programes d'alineament. Aquest segueix un esquema bàsic que consta d'una capçalera on s'indica el nom del format, la puntuació de l'alineament i els percentatges de similitud i identitat entre les dues seqüències alineades. Seguidament apareix l'alineament resultant, on la informació es mostra en blocs de tres fileres. La primera filera mostra la primera seqüència, la segona mostra la segona seqúència i per últim la tercera indica, mitjançant un símbol, quina és la relació entre les dues seqüències que es comparen:

Generalment el fitxer de sortida en format CLUSTAL sol representar-se amb línies d'una longitud d'entre 50 i 60 caràcters.

Un exemple de seqüència en format CLUSTAL:


CLUSTAL FORMAT for T-COFFEE Version_1.37, CPU=0.00 sec, SCORE=100, Nseq=2, Len=335

NM_OOOO43       MLGIWTLLPLVLTSVARLSSKSVNAQVTDINSKGLELRKTVTTVETQNLEGLHHDGQFCH
NM_007987       MLWIWAVLPLVLAG----SQLRVHTQGTNSISESLKLRRRVHETDKNCSEGLYQGGPFCC
                ** **::*****:.    *.  *::* *:  *:.*:**: *  .:.:  ***::.* ** 

NM_OOOO43       KPCPPGERKARDCTVNGDEPDCVPCQEGKEYTDKAHFSSKCRRCRLCDEGHGLEVEINCT
NM_007987       QPCQPGKKKVEDCKMNGGTPTCAPCTEGKEYMDKNHYADKCRRCTLCDEEHGLEVETNCT
                :** **::*..**.:**. * *.** ***** ** *::.***** **** ****** ***

NM_OOOO43       RTQNTKCRCKPNFFCNSTVCEHCDPCTKCEHGIIKECTLTSNTKCKEEGSRSNLGWLCLL
NM_007987       LTQNTKCKCKPDFYCDSPGCEHCVRCASCEHGTLEPCTATSNTNCRKQSPRNRLWLLTIL
                 ******:***:*:*:*. ****  *:.**** :: ** ****:*:::..*..*  * :*

NM_OOOO43       LLPIPLIVWVKRKEVQKTCRKHRKENQGSHESPTLNPETVAINLSDVDLSKYITTIAGVM
NM_007987       VLLIPL-VFIYRKYRKRKCWKRRQDDP---ESRTSSRETIPMNASNLSLSKYIPRIAEDM
                :* *** *:: **  ::.* *:*:::    ** * . **:.:* *::.*****. **  *

NM_OOOO43       TLSQVKGFVRKNGVNEAKIDEIKNDNVQDTAEQKVQLLRNWHQLHGKKEAYDTLIKDLKK
NM_007987       TIQEAKKFARENNIKEGKIDEIMHDSIQDTAEQKVQLLLCWYQSHGKSDAYQDLIKGLKK
                *:.:.* *.*:*.::*.***** :*.:***********  *:* ***.:**: ***.***

NM_OOOO43       ANLCTLAEKIQTIILKDITSDSENSNFRNEIQSLV
NM_007987       AECRRTLDKFQDMVQKDLGKSTPDTGNENEGQCLE
                *:     :*:* :: **: ..: ::. .** *.*