L'alineament de seqüències d'àcids nucleics i aminoàcids representa una font molt important d'informació per a comprendre com han evolucionat els diferents organismes, i per tant és una eina primordial en la biologia evolutiva.
L'anàlisi comparatiu de seqüències mitjançant alineaments globals permet obtenir arbres filogenètics. Com més similars siguin les seqüències, més properes seran aquestes espècies a l'arbre filogenètic i en conseqüència també més properes evolutivament.
A més d'aquesta informació, l'anàlisi global de seqüències ha permès trobar homologies en diferents espècies llançant una determinada seqüència d'interès contra una base de dades. La identificació d'aquestes seqüències homòlogues ha tingut un paper molt important per a la troballa tant de diverses proteïnes estructurals com també d'altres regions genòmiques implicades en patologia com serien les regions codificants per a oncogens.
El procés d'alineament de dues seqüències quan aquestes presenten un elevat índex de similitud sol ser per regla general un procés simple. Fins i tot alguns d'aquests alineaments es poden fer a simple vista. Vegem-ne un exemple:
seq A ==> V D S C Y seq B ==> V E S L C Y
L'alineament correcte d'aquesta seqüència seria el següent:
seq A ==> V D S - C Y seq B ==> V E S L C Y
En aquest cas l'alineament que estem buscant entre les seqüències aminoacídiques serà aquell en què el nombre de coincidències entre els aminoàcids sigui el màxim possible. Per tant el que estarem buscant és l'alineament que fa mínima la distància entre les dues seqüències.
Això és així ja que tenint en compte que no podem conèixer el procés evolutiu real, el més probable és que l'alineament correcte sigui, entre tots els alineaments possibles, aquell alineament que suposi un menor nombre de divergències entre ambdúes seqüències.
El problema es complica quan les seqüències que volem alinear presenten molta divergència, com seria el cas de que pertanyin a espècies molt allunyades filogenèticament. En aquest cas l'alineament manual resulta impossible i cal recòrrer a programes d'alineament informàtic com seria CLUSTAL, CINEMA o TEE-COFFEE.
S'ha de tenir en compte que les longituds de les seqüències que volem alinear
poden arribar a ser de molts residus i per tant és materialment impossible tenir en compte tots els alineaments possibles. Aquest problema va ser solventat l'any 1971 quan Nedleeman and Wunsh van inventar l'algorisme de programació dinàmica per a l'alineament de dues seqüències.Trobem dos tipus d'alineaments:
El format FASTA es va crear juntament amb programa FASTA, que aparegué com a una alternativa
a BLAST per a fer cerques en bases de dades
de seqüències.
Aquest format destaca per la seva senzillesa. Consta d'una primera línia amb
un identificador de la seqüència precedida pel símbol " > " que indica l'inici de
la descripció. Si hi ha vàries descripcions, aquestes sovint van separades per una barra
vertical " | " , però a diferència del simbol " > ", el seu ús no es troba acceptat
universalment.
La seqüència de nucleòtids o aminoàcids pot ocupar una extensió important. Generalment el que se sol fer és limitar-ne la longitud de cada línea a 72 o 80 caràcters.
Un exemple de seqüència en format FASTA:
>NM_OOOO43 MLGIWTLLPLVLTSVARLSSKSVNAQVTDINSKGLELRKTVTTVETQNLEGLHHDGQFCHKPCPPGERKA RDCTVNGDEPDCVPCQEGKEYTDKAHFSSKCRRCRLCDEGHGLEVEINCTRTQNTKCRCKPNFFCNSTVC EHCDPCTKCEHGIIKECTLTSNTKCKEEGSRSNLGWLCLLLLPIPLIVWVKRKEVQKTCRKHRKENQGSH ESPTLNPETVAINLSDVDLSKYITTIAGVMTLSQVKGFVRKNGVNEAKIDEIKNDNVQDTAEQKVQLLRN WHQLHGKKEAYDTLIKDLKKANLCTLAEKIQTIILKDITSDSENSNFRNEIQSLV
Aquest format d'arxius són l'entrada pel programa FASTA i contenen la informació de la seqüència que es vol comparar amb la resta de seqüències de les bases de dades.
Generalment el fitxer de sortida en format CLUSTAL sol representar-se amb línies d'una longitud d'entre 50 i 60 caràcters.
Un exemple de seqüència en format CLUSTAL:
CLUSTAL FORMAT for T-COFFEE Version_1.37, CPU=0.00 sec, SCORE=100, Nseq=2, Len=335 NM_OOOO43 MLGIWTLLPLVLTSVARLSSKSVNAQVTDINSKGLELRKTVTTVETQNLEGLHHDGQFCH NM_007987 MLWIWAVLPLVLAG----SQLRVHTQGTNSISESLKLRRRVHETDKNCSEGLYQGGPFCC ** **::*****:. *. *::* *: *:.*:**: * .:.: ***::.* ** NM_OOOO43 KPCPPGERKARDCTVNGDEPDCVPCQEGKEYTDKAHFSSKCRRCRLCDEGHGLEVEINCT NM_007987 QPCQPGKKKVEDCKMNGGTPTCAPCTEGKEYMDKNHYADKCRRCTLCDEEHGLEVETNCT :** **::*..**.:**. * *.** ***** ** *::.***** **** ****** *** NM_OOOO43 RTQNTKCRCKPNFFCNSTVCEHCDPCTKCEHGIIKECTLTSNTKCKEEGSRSNLGWLCLL NM_007987 LTQNTKCKCKPDFYCDSPGCEHCVRCASCEHGTLEPCTATSNTNCRKQSPRNRLWLLTIL ******:***:*:*:*. **** *:.**** :: ** ****:*:::..*..* * :* NM_OOOO43 LLPIPLIVWVKRKEVQKTCRKHRKENQGSHESPTLNPETVAINLSDVDLSKYITTIAGVM NM_007987 VLLIPL-VFIYRKYRKRKCWKRRQDDP---ESRTSSRETIPMNASNLSLSKYIPRIAEDM :* *** *:: ** ::.* *:*::: ** * . **:.:* *::.*****. ** * NM_OOOO43 TLSQVKGFVRKNGVNEAKIDEIKNDNVQDTAEQKVQLLRNWHQLHGKKEAYDTLIKDLKK NM_007987 TIQEAKKFARENNIKEGKIDEIMHDSIQDTAEQKVQLLLCWYQSHGKSDAYQDLIKGLKK *:.:.* *.*:*.::*.***** :*.:*********** *:* ***.:**: ***.*** NM_OOOO43 ANLCTLAEKIQTIILKDITSDSENSNFRNEIQSLV NM_007987 AECRRTLDKFQDMVQKDLGKSTPDTGNENEGQCLE *: :*:* :: **: ..: ::. .** *.*