Identifiació de Motius: Ajuda

Ajuda

Temes d'ajuda:

Format FASTA
Expressions regulars en Perl
Exemples de motius conservats

Format FASTA
Una seqüència en format FASTA comença amb una línia de descripció seguida de línies de seqüència. La línia de descripció se separa de la seqüència mitjançant el símbol major que (">") a la primera columna. En el cas de les seqüències de DNA, les lletres poden estar tant en majúscula com en minúscula. Qualsevol tabulació, espai o intro present al fitxer serà ignorat. Un mateix arxiu pot contenir un nombre il·limitat de seqüències FASTA separades per un intro. Convé representar les seqüències d'àcids nucleics i aminoàcids en codi estàndar IUB/IUPAC. Els caràcters que no estiguin en codi estàndar seran tractats com a dígits desconeguts. Si existeix algun caràcter desconegut s'ha d'indicar amb una N en el cas de seqüències nucleotídiques o amb una X en les aminoacídiques. Exemple:

Tornar a Temes d'ajuda

Expressions regulars en Perl
L'expressió regular és la representació de totes les possiblitats de seqüències observades per a un motiu. Hi ha vàries maneres d'escriure les expressions regulars, totes elles sinònimes entre sí. El que les diferencia són els caràcters utilitzats per representar-les. Per fer córrer el programa motius.pl és precís utilitzar expressions regulars en llenguatge Perl. Algunes de les principals instruccions d'aquest llenguatge s'indiquen a continuació:

INSTRUCCIÓ
DESCRIPCIÓ

.
qualsevol caràcter excepte \n

\.
busca un punt

*
l'element precedent 0 o més vegades

.*
qualsevol caràcter tantes vegades com sigui

+
l'element precedent una o més vegades

?
l'element precedent és opcional

(paraula)+
la paraula precedent una o més vegades

|
tant si l'element està a l'esquerra com a la dreta

[CTA]
qualsevol element entre C, T o A una vegada

[^CTA]
qualsevol caràcter exceptuant C, T o A

\w
una lletra o número

\w+
una paraula amb un o més caràcters

\d
un número

[0-9]
un número

\t una tabulació

\n
un canvi de línia

\s
un espai (espai, tabulació o canvi de línia)

a{5,15}
de cinc a quinze repeticions de la lletra a

a{5,}
cinc o més repeticions de la lletra a

\w{8}
una paraula d'exactament vuit caràcters

^(paraula)
una paraula al començament de la seqüència

(paraula)$
una paraula al final de la seqüència

Exemple de traducció d'una expressió regular procedent de la base de dades PROSITE a Perl. Per al motiu proteic zinc-finger, l'expressió regular que el defineix a PROSITE és la següent: C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3-5)-H. Aquesta expressió en llenguatge Perl quedaria traduïda com segueix: C\w{2,4}C\w{3}[LIVMFYWC]\w{8}H\w{3,5}H. Com veiem, totes les "x" de la primera expressió passen a ser "\w", els "( )" es representen com "{ }" i els guions se suprimeixen.

Tornar a Temes d'ajuda

Exemples de motius conservats
De les bases de dades disponibles a Internet hem extret una llista de 10 motius proteics i 10 motius de DNA representatius. Per a cadascun d'ells es mostra la descripció i l'expressió regular en Perl. Pots copiar qualsevol de les expressions i enganxar-la directament al camp corresponent a la pàgina del Servidor.

Motiu proteic
Descripció
Expressió regular en Perl

N-glycosylation site
Lloc de modificació post-traduccional
N(P)+[ST](P)+

Glycosaminoglycan attachment site Lloc de modificació post-traduccional SG\wG

ATP/GTP-binding site motif A (P-loop) Domini proteic
[AG]\w{4}GK[ST]

LIM domain Domini proteic d'unió a proteïna
C\w{2}C\w{15,21}[FYWHPCR]H\w{2} [CH]\w{2}C\w{2}C\w{3}[LIVMF]

Endoplasmic reticulum targeting sequence Domini de direccionament al RER
[KRHQSA][DENQ]EL$

Homeobox
Domini d'unió al DNA
[LIVMFYG][ASLVR]\w{2}[LIVMSTACN]\w[LIVM]\w{4}[LIV] [RKNQESTAIY]
[LIVFSTNKH]W[FYVC]\w[NDQTAH]\w{5}[RKNAIMW]

Leucine zipper Domini d'unió al DNA
L\w{6}L\w{6}L\w{6}L

L-lactate dehydrogenase active site Enzim oxidoreductasa
[LIVMA]G[EQ]HG[DN][ST]

Transketolase
Enzim transferasa
R\w{3}[LIVMTA[DENQSTHKF]\w{5,6}[GSN]GH[PLIVMF] [GSTA]\w{2}[LIMC][GS]

DNA topoisomerase II Enzim isomerasa
[LIVMA](R)+EG[DN]SA(F)+[STAG

Per trobar més dominis pots dirigir-te a la base de dades de PROSITE

Motiu DNA
Descripció
Expressió regular en Perl

Caixa TATA
Element promotor
TATAAAA

Caixa CAAT
Element promotor
GGCCAATCT

Caixa GC
Element promotor
GGGCGG

Octàmer
Element potenciador
ATTTGCAT

HSE
Element de resposta a factor del xoc tèrmic
C\w{2}GAA\w{2}TCC\w{2}G

GRE
Element de resposta al receptor de glucocorticoides
TGGTACAAATGTTCT

TRE
Element de resposta al receptor tiroideu
CAGGGACGTGACCGCA

ERE
Element de resposta al receptor d'estrògens
[AT]TG\wAA\wCG\w[AT]\w{2}C[AT]

Donor site splicing
Senyal d'splicing
[AC]AGGT[AG]AGT

Acceptor site splicing
Senyal d'splicing
[CT]\wCAGG

Per trobar més factors de transcripció i els seus llocs d'unió pots dirigir-te a la base de dades de TRANSFAC

Tornar a Temes d'ajuda

INSTRUCCIÓ	DESCRIPCIÓ
.	qualsevol caràcter excepte \n
\.	busca un punt
*	l'element precedent 0 o més vegades
.*	qualsevol caràcter tantes vegades com sigui
+	l'element precedent una o més vegades
?	l'element precedent és opcional
(paraula)+	la paraula precedent una o més vegades
\|	tant si l'element està a l'esquerra com a la dreta
[CTA]	qualsevol element entre C, T o A una vegada
[^CTA]	qualsevol caràcter exceptuant C, T o A
\w	una lletra o número
\w+	una paraula amb un o més caràcters
\d	un número
[0-9]	un número
\t	una tabulació
\n	un canvi de línia
\s	un espai (espai, tabulació o canvi de línia)
a{5,15}	de cinc a quinze repeticions de la lletra a
a{5,}	cinc o més repeticions de la lletra a
\w{8}	una paraula d'exactament vuit caràcters
^(paraula)	una paraula al començament de la seqüència
(paraula)$	una paraula al final de la seqüència

Motiu proteic	Descripció	Expressió regular en Perl
N-glycosylation site	Lloc de modificació post-traduccional	N(P)+[ST](P)+
Glycosaminoglycan attachment site	Lloc de modificació post-traduccional	SG\wG
ATP/GTP-binding site motif A (P-loop)	Domini proteic	[AG]\w{4}GK[ST]
LIM domain	Domini proteic d'unió a proteïna	C\w{2}C\w{15,21}[FYWHPCR]H\w{2} [CH]\w{2}C\w{2}C\w{3}[LIVMF]
Endoplasmic reticulum targeting sequence	Domini de direccionament al RER	[KRHQSA][DENQ]EL$
Homeobox	Domini d'unió al DNA	[LIVMFYG][ASLVR]\w{2}[LIVMSTACN]\w[LIVM]\w{4}[LIV] [RKNQESTAIY] [LIVFSTNKH]W[FYVC]\w[NDQTAH]\w{5}[RKNAIMW]
Leucine zipper	Domini d'unió al DNA	L\w{6}L\w{6}L\w{6}L
L-lactate dehydrogenase active site	Enzim oxidoreductasa	[LIVMA]G[EQ]HG[DN][ST]
Transketolase	Enzim transferasa	R\w{3}[LIVMTA[DENQSTHKF]\w{5,6}[GSN]GH[PLIVMF] [GSTA]\w{2}[LIMC][GS]
DNA topoisomerase II	Enzim isomerasa	[LIVMA](R)+EG[DN]SA(F)+[STAG

Motiu DNA	Descripció	Expressió regular en Perl
Caixa TATA	Element promotor	TATAAAA
Caixa CAAT	Element promotor	GGCCAATCT
Caixa GC	Element promotor	GGGCGG
Octàmer	Element potenciador	ATTTGCAT
HSE	Element de resposta a factor del xoc tèrmic	C\w{2}GAA\w{2}TCC\w{2}G
GRE	Element de resposta al receptor de glucocorticoides	TGGTACAAATGTTCT
TRE	Element de resposta al receptor tiroideu	CAGGGACGTGACCGCA
ERE	Element de resposta al receptor d'estrògens	[AT]TG\wAA\wCG\w[AT]\w{2}C[AT]
Donor site splicing	Senyal d'splicing	[AC]AGGT[AG]AGT
Acceptor site splicing	Senyal d'splicing	[CT]\wCAGG