Alineament global de dues seqüències

L'alineament de seqüències d'àcids nucleics i aminoàcids representa una font molt important d'informació per a comprendre com han evolucionat els diferents organismes, i per tant és una eina primordial en la biologia evolutiva.

L'anàlisi comparatiu de seqüències mitjançant alineaments globals permet obtenir arbres filogenètics. Com més similars siguin les seqüències, més properes seran aquestes espècies a l'arbre filogenètic i en conseqüència també més properes evolutivament.

A més d'aquesta informació, l'anàlisi global de seqüències ha permès trobar homologies en diferents espècies llançant una determinada seqüència d'interès contra una base de dades. La identificació d'aquestes seqüències homòlogues ha tingut un paper molt important per a la troballa tant de diverses proteïnes estructurals com també d'altres regions genòmiques implicades en patologia com serien les regions codificants per a oncogens.

2. Problemes per alinear seqüències.

El procés d'alineament de dues seqüències quan aquestes presenten un elevat índex de similitud sol ser per regla general un procés simple. Fins i tot alguns d'aquests alineaments es poden fer a simple vista. Vegem-ne un exemple:

 			    seq A ==> V D S C Y
			    seq B ==> V E S L C Y

 			    seq A ==> V D S - C Y
			    seq B ==> V E S L C Y

En aquest cas l'alineament que estem buscant entre les seqüències aminoacídiques serà aquell en què el nombre de coincidències entre els aminoàcids sigui el màxim possible. Per tant el que estarem buscant és l'alineament que fa mínima la distància entre les dues seqüències.

Això és així ja que tenint en compte que no podem conèixer el procés evolutiu real, el més probable és que l'alineament correcte sigui, entre tots els alineaments possibles, aquell alineament que suposi un menor nombre de divergències entre ambdúes seqüències.

El problema es complica quan les seqüències que volem alinear presenten molta divergència, com seria el cas de que pertanyin a espècies molt allunyades filogenèticament. En aquest cas l'alineament manual resulta impossible i cal recòrrer a programes d'alineament informàtic com seria CLUSTAL, CINEMA o TEE-COFFEE.

3. Tipus d'alineaments

4. Formats d'entrada i sortida.

Format FASTA

El format FASTA es va crear juntament amb programa FASTA, que aparegué com a una alternativa a BLAST per a fer cerques en bases de dades de seqüències.
Aquest format destaca per la seva senzillesa. Consta d'una primera línia amb un identificador de la seqüència precedida pel símbol " > " que indica l'inici de la descripció. Si hi ha vàries descripcions, aquestes sovint van separades per una barra vertical " | " , però a diferència del simbol " > ", el seu ús no es troba acceptat universalment.

La seqüència de nucleòtids o aminoàcids pot ocupar una extensió important. Generalment el que se sol fer és limitar-ne la longitud de cada línea a 72 o 80 caràcters.

>NM_OOOO43
MLGIWTLLPLVLTSVARLSSKSVNAQVTDINSKGLELRKTVTTVETQNLEGLHHDGQFCHKPCPPGERKA
RDCTVNGDEPDCVPCQEGKEYTDKAHFSSKCRRCRLCDEGHGLEVEINCTRTQNTKCRCKPNFFCNSTVC
EHCDPCTKCEHGIIKECTLTSNTKCKEEGSRSNLGWLCLLLLPIPLIVWVKRKEVQKTCRKHRKENQGSH
ESPTLNPETVAINLSDVDLSKYITTIAGVMTLSQVKGFVRKNGVNEAKIDEIKNDNVQDTAEQKVQLLRN
WHQLHGKKEAYDTLIKDLKKANLCTLAEKIQTIILKDITSDSENSNFRNEIQSLV

Format CLUSTAWL

Generalment el fitxer de sortida en format CLUSTAL sol representar-se amb línies d'una longitud d'entre 50 i 60 caràcters.


CLUSTAL FORMAT for T-COFFEE Version_1.37, CPU=0.00 sec, SCORE=100, Nseq=2, Len=335

NM_OOOO43       MLGIWTLLPLVLTSVARLSSKSVNAQVTDINSKGLELRKTVTTVETQNLEGLHHDGQFCH
NM_007987       MLWIWAVLPLVLAG----SQLRVHTQGTNSISESLKLRRRVHETDKNCSEGLYQGGPFCC
                ** **::*****:.    *.  *::* *:  *:.*:**: *  .:.:  ***::.* ** 

NM_OOOO43       KPCPPGERKARDCTVNGDEPDCVPCQEGKEYTDKAHFSSKCRRCRLCDEGHGLEVEINCT
NM_007987       QPCQPGKKKVEDCKMNGGTPTCAPCTEGKEYMDKNHYADKCRRCTLCDEEHGLEVETNCT
                :** **::*..**.:**. * *.** ***** ** *::.***** **** ****** ***

NM_OOOO43       RTQNTKCRCKPNFFCNSTVCEHCDPCTKCEHGIIKECTLTSNTKCKEEGSRSNLGWLCLL
NM_007987       LTQNTKCKCKPDFYCDSPGCEHCVRCASCEHGTLEPCTATSNTNCRKQSPRNRLWLLTIL
                 ******:***:*:*:*. ****  *:.**** :: ** ****:*:::..*..*  * :*

NM_OOOO43       LLPIPLIVWVKRKEVQKTCRKHRKENQGSHESPTLNPETVAINLSDVDLSKYITTIAGVM
NM_007987       VLLIPL-VFIYRKYRKRKCWKRRQDDP---ESRTSSRETIPMNASNLSLSKYIPRIAEDM
                :* *** *:: **  ::.* *:*:::    ** * . **:.:* *::.*****. **  *

NM_OOOO43       TLSQVKGFVRKNGVNEAKIDEIKNDNVQDTAEQKVQLLRNWHQLHGKKEAYDTLIKDLKK
NM_007987       TIQEAKKFARENNIKEGKIDEIMHDSIQDTAEQKVQLLLCWYQSHGKSDAYQDLIKGLKK
                *:.:.* *.*:*.::*.***** :*.:***********  *:* ***.:**: ***.***

NM_OOOO43       ANLCTLAEKIQTIILKDITSDSENSNFRNEIQSLV
NM_007987       AECRRTLDKFQDMVQKDLGKSTPDTGNENEGQCLE
                *:     :*:* :: **: ..: ::. .** *.*

INTRODUCCIÓ

1. Per què alinear les seqüències?

2. Problemes per alinear seqüències.

3. Tipus d'alineaments

4. Formats d'entrada i sortida.

Format FASTA

Format CLUSTAWL