Format FASTA
Una seqüència en format FASTA comença amb una
línia de descripció seguida de línies de
seqüència. La línia de descripció se separa
de la seqüència mitjançant el símbol major
que (">") a la primera columna. En el cas de les seqüències
de DNA, les lletres poden estar tant en majúscula com en minúscula.
Qualsevol tabulació, espai o intro present al fitxer serà ignorat.
Un mateix arxiu pot contenir un nombre il·limitat de seqüències
FASTA separades per un intro. Convé representar les seqüències
d'àcids nucleics i aminoàcids en codi estàndar IUB/IUPAC.
Els caràcters que no estiguin en codi estàndar seran tractats com a
dígits desconeguts. Si existeix algun caràcter desconegut s'ha d'indicar
amb una N en el cas de seqüències nucleotídiques o amb una X
en les aminoacídiques. Exemple:
Tornar a Temes d'ajuda
Expressions regulars en Perl
L'expressió regular és la representació de totes les
possiblitats de seqüències observades per a un motiu.
Hi ha vàries maneres d'escriure les expressions regulars, totes elles
sinònimes entre sí. El que les diferencia són els
caràcters utilitzats per representar-les. Per fer córrer el programa
motius.pl és precís utilitzar expressions regulars en llenguatge Perl.
Algunes de les principals instruccions d'aquest llenguatge s'indiquen a continuació:
INSTRUCCIÓ |
DESCRIPCIÓ |
. |
qualsevol caràcter excepte \n |
\. |
busca un punt |
* |
l'element
precedent 0 o més vegades |
.* |
qualsevol
caràcter tantes vegades com sigui |
+ |
l'element
precedent una o més vegades |
? |
l'element
precedent és opcional |
(paraula)+ |
la paraula
precedent una o més vegades |
| |
tant si l'element està
a l'esquerra com a la dreta |
[CTA] |
qualsevol element entre C, T o A
una vegada |
[^CTA] |
qualsevol caràcter
exceptuant C, T o A |
\w |
una lletra o número |
\w+ |
una paraula amb un o més
caràcters |
\d |
un número |
[0-9] |
un número |
\t | una tabulació |
\n |
un canvi de línia |
\s |
un espai (espai, tabulació
o canvi de línia) |
a{5,15} |
de cinc a quinze repeticions de la lletra a |
a{5,} |
cinc o més repeticions de la lletra a |
\w{8} |
una paraula d'exactament vuit caràcters |
^(paraula) |
una paraula al començament de la
seqüència |
(paraula)$ |
una paraula al final de la
seqüència |
Motiu proteic |
Descripció |
Expressió regular en Perl |
N-glycosylation site |
Lloc de modificació post-traduccional |
N(P)+[ST](P)+ |
Glycosaminoglycan attachment site | Lloc de modificació post-traduccional | SG\wG |
ATP/GTP-binding site motif A (P-loop) | Domini proteic |
[AG]\w{4}GK[ST] |
LIM domain | Domini proteic d'unió a proteïna |
C\w{2}C\w{15,21}[FYWHPCR]H\w{2}
[CH]\w{2}C\w{2}C\w{3}[LIVMF] |
Endoplasmic reticulum targeting sequence | Domini de direccionament al RER |
[KRHQSA][DENQ]EL$ |
Homeobox |
Domini d'unió al DNA |
[LIVMFYG][ASLVR]\w{2}[LIVMSTACN]\w[LIVM]\w{4}[LIV]
[RKNQESTAIY] [LIVFSTNKH]W[FYVC]\w[NDQTAH]\w{5}[RKNAIMW] |
Leucine zipper | Domini d'unió al DNA |
L\w{6}L\w{6}L\w{6}L |
L-lactate dehydrogenase active site | Enzim oxidoreductasa |
[LIVMA]G[EQ]HG[DN][ST] |
Transketolase |
Enzim transferasa |
R\w{3}[LIVMTA[DENQSTHKF]\w{5,6}[GSN]GH[PLIVMF] [GSTA]\w{2}[LIMC][GS] |
DNA topoisomerase II | Enzim isomerasa |
[LIVMA](R)+EG[DN]SA(F)+[STAG |
Motiu DNA |
Descripció |
Expressió regular en Perl |
Caixa TATA |
Element promotor |
TATAAAA |
Caixa CAAT |
Element promotor |
GGCCAATCT |
Caixa GC |
Element promotor |
GGGCGG |
Octàmer |
Element potenciador |
ATTTGCAT |
HSE |
Element de resposta a factor del xoc tèrmic |
C\w{2}GAA\w{2}TCC\w{2}G |
GRE |
Element de resposta al receptor de glucocorticoides |
TGGTACAAATGTTCT |
TRE |
Element de resposta al receptor tiroideu |
CAGGGACGTGACCGCA |
ERE |
Element de resposta al receptor d'estrògens |
[AT]TG\wAA\wCG\w[AT]\w{2}C[AT] |
Donor site splicing |
Senyal d'splicing |
[AC]AGGT[AG]AGT |
Acceptor site splicing |
Senyal d'splicing |
[CT]\wCAGG |