INICIAL
INTRODUCCIÓ
MÈTODE
EXEMPLE
EXECUCIÓ
GLOSSARI
AUTORS
BIBLIOGRAFIA
|
MATRIUS DE SUBSTITUCIÓ
- Una matriu de substitució és aquella que es composa de la llista dels 20 aa situats en en la primera fila i primera columna, donant log odd scores per a cada substució d'aa en la intersecció de files i columnes per a cada parell d'aa.
- Estos SCORES es basen en l'observació dels canvis evolutius o dels alineaments de moltes families de seqüències. A partir d'aquestos alineaments se calcula la freqüència amb que cada parell de residus apareix substituit (en una mateixa posicio de l'alineament) i se compara amb la freqüència que per atzar deuria observarse dita substitució (el producte de les freqüències en el que apareixen en les proteïnes cadascu dels aminoacids). Aquest seria el calcul del log odd.
- Les matrius de substitucio mes conegudes son:
- PAM (Percent Accepted Mutation): Aquesta matriu esta indicada especialment per a alineaments de seqüències amb ancestres homolegs. Quan major es el nombre que acompanya al nom de la matriu (PAM40, PAM120), major s'esera que siga la distància evolutiva. Si es desconeix la distància evolutiva es necessari ejecutar al menys tres cerques utilitzant matrius PAM40, PAM120 i PAM250. Generalment s'utilitzen per a establir l'evoució d'una seqüència o per a identificar seqüències conservades.
- BLOSSUM (Blocks substitution matrix): Aquest tipus de matriu indicada quan es trata d'identficar una seqüència desconeguda. La matriu BLOSSUM62 es trova per defecte en totes les cerques blast de proteïnes, i ès capaç de reconeixer substitucions conservades (Lisina per Arginina).
ALGORITME DE PROGRAMACIÓ DINÀMICA
L'algoritme de programació dinàmica soluciona el problema de trovar l'alineament optim entre dues seqüències gràcies a desglosar l'alineament en una serie de subalineaments.
Es construeix una matriu amb les dues seqüències. L'objectiu ès calcular el millor SCORE per a cada posició en la matriu, considerant cada possible combinació de matches, mismatches i gaps en dita posició.
Començant en la posició de la matriu dalt-esquerra corresponent a l'inici de la sequencia, l'algoritme puntua la posicio inicial, incloent totes les possibles combinacions. L'allargament de l'alineament es construeix començant amb aquesta posició inicial i omplint totes les posicions que queden en la matriu. La màxima puntuació per a cada posició de la matriu es el millor SCORE entre les seqüències. La ruta seguida a traves de la matriu per assolir este SCORE, dona el corresponent alineament de les dues seqüències.
GAP
Un gap es una posició en blanc en l'alineament de dues seqüències causat per una inserció o una delecció en una de les dues seqüències. En l'algoritme en el que em treballat el fet de incloure un gap en l'alineament de les seqüències, suposa una penalització a l'hora d'obtenir el SCORE final, així hi trobarem dos tipus de penalització per a gaps diferents:
- GAP PENALTY: Aquesta penalització vindrà donada per l'obertura d'un gap, es a dir d'un salt nou. I en general sol tenir una alta penalització.
- GAP EXTENSION:Al fet d'extendre un salt que ja estava obert li correpon una penalització, pero sol ser menor que la penalització per obrir un gap.
FORMAT
- FORMAT FASTA:Els fitxers en format FASTA són fitxers dels que el seu nom té, o mès aviat sol tenir, extensió.fa. Aquest format s'utilitza per enregistrar seqüències. Cada seqüència va precedida d'una línia que comença amb el símbol '>' i segueix una paraula que identificarà la seqüència. A partir de la línia següent anirà enregistrada la seqüència, típicament trencada en línies de 50, 60 o 70 símbols. Un exemple de fitxer en format FASTA podria ser el següent:
>NM_021724
MTTLDSNNNTGGVITYIGSSGSSPSRTSPESLYSDNSNGSFQSLTQGCPTYFPPSPTGSLT
QDPARSFGSIPPSLSDDGSPSSSSSSSSSSSSFYNGSPPGSLQVAMEDSSRVSPSKSTSNI
TKLNGMVLLCKVCGDVASGFHYGVHACEGCKGFFRRSI*
- FORMAT CLUSTAL: El format CLUSTAL és un dels standards de facto seguits per gairebé tots els programes d'alineament de seqüències. La millor manera d'explicar el format es mirant el següent exemple:
CLUSTAL FORMAT, identity 63.8%, score 10430
NP_007987 MLWIWAVLPLVLAGSQLRVHTQGTNSISESLKLRRRVHETDKNCSEGLYQGGPFCCQPCQ
NP_139194 MLWIMAVLPLVLAGPELNVRMQGTDSIFEGLELKRSVRETDNNCSEGLYQVGPFCCQPCQ
**** ********* :* *: ***:** * *:*:* *:***:******** *********
NP_007987 PGKKKVEDCKMNGGTPTCAPCTEGKEYMDKNHYADKCRRCTLCDEEHGLEVETNCTLTQN
NP_139194 PGERKVKDCTTSGGAPTCHPCTEGEEYTDRKHYSDKCRRCAFCDEGHGLEVETNCTRTQN
**::**:** **:*** *****:** *::**:******::*** ********** ***
NP_007987 TKCKCKPDFYCDSPGCEHCVRCASCE-HGTLEPCTATSNTNCRKQSPRNRL-WLLTILVL
NP_139194 TKCRCKENFYCNASLCDHCYHCTSCGLEDILEPCTRTSNTKCKKQSSNYKLLWLLILPGL
***:** :***:: *:** :*:** ***** ****:*:*** :* *** : *
NP_007987 LIPLVFIYRKYRKRKCWKRRQDDPESRTSSRETIPMNASNLSLSKYIPRIAEDMTIQEAK
NP_139194 AILFVFIYKRYR-----KRQPGDPESGIPSPESVPMNVSDVNLNKYIWRTAEKMKICDAK
* :****::** **: **** * *::***.*::.*.*** * ** * * :**
NP_007987 KFARENNIKEGKIDEIMHDSIQDTAEQKVQLLLCWYQSHGKSDAYQDLIKGLKKAECRRT
NP_139194 KFARQHKIPESKIDEIEHNSPQDAAEQKIQLLQCWYQSHGKTGACQALIQGLRKANRCDI
****:::* * ***** *:* **:****:*** ********: * * **:**:**:
NP_007987 LDKFQDMVQKDLGKSTPDTGNENEGQCLE
NP_139194 AEEIQAMVWEDHENSISNSRNENEGQSLE
:::* ** :* :* :: ****** **
On la primera línia conté les paraules CLUSTAL FORMAT seguides de la proporció de símbols idèntics alineats, i de la puntuació final de l'alineament.
Se situa una seqüència a sota de l'altra, i a sota el símbols de:
- L'asterisc (*) si els símbols alineats són idèntics.
- Dos punts (:) si el valor de substitució entre els dos aminoàcids alineats (en el cas d'alinear seqüències de proteïnes) és mès gran que 0, i un espai en qualsevol altre cas.
A l'esquerra dels alineaments hi situarem els primers 9 caràcters de l'identificador de la seqüència a l'alç ada del tros de seqüència corresponent.
|