Para extraer la región promotora del gen formada por
1kb upstream del sitio de inicio de la transcripción (TSS) y 100bp downstream
del TSS, hemos utilizado UCSC siguiendo
las estos pasos:
Vamos a Genome Browser, seleccionamos Mouse en el campo 'genome',
ponemos la primera proteína de fusión (UFD2) en el campo "position
or search", presionamos en "Submit" y luego, seleccionamos el
primer gen conocido "Ube4b (NM_022022) at chr4:148172217-148270549".
A continuación, se muestra la descripción gráfica del gen,
le damos en "Ube4b", y aparece una página con información
sobre el gen seleccionado. Vamos a la sección 'Sequence' y clickamos en
el link de la secuancia del gen:
Genomic (chr4:148,172,217-148,270,549) , selccionamos el box Promoter/Upstream
by 1000 bases, deseleccionamos los boxes: 5' UTR Exons, CDS Exons, 3' UTR Exons
y Introns. Seleccionamos el box: Downstream by 100 bases. En el apartado de 'Sequence
Formatting Options' seleccionamos 'All upper case' y le damos a 'Submit'
Aquí tenemos los
1100 nucléotidos de la secuencia promotora para UFD2.
Aquí tenemos los
1100 nucléotidos de la secuencia promotora para D4COLE1E.
Conjunto de factores de transcripción (FTs):
Para encontrar el conjunto de factores de transcripción
que se unen a esta región promotora, hemos desarrollado un programa en
Perl que nos muestre los valores de p-value, Score y posición del factor.
El código del programa en Perl
se puede descargar aquí.
Proteina UFD2:
Ejecutando el programa en Perl con 10000 iteraciones para la secuencia promotora de UFD2 obtenemos estos
valores:
Los resultados son:
Nombre Factor |
p-value |
Posición de inicio |
Score |
AP-1 [T00029] |
0.1863 |
501 |
32.4414681452575 |
RXR-alpha [T01345] |
0.2328 |
125 |
25.0792985930272 |
NF-AT1 [T00550]: |
0.2369 |
632 |
24.267640487346 |
NRSF [T06124] |
0.2454 |
735 |
-966.681815608207 |
AR [T00040] |
0.4104 |
785 |
26.4425972839364 |
SRF [T00764] |
0.4223 |
287 |
-965.892260904397 |
PU.1 [T02068] |
0.4617 |
630 |
-977.088011891059 |
HNF-4 [T02758] |
0.5459 |
397 |
-975.931147993392 |
NF-kappaB [T00590] |
0.6367 |
616 |
-966.831964208492 |
YY1 [T00915] |
0.7054 |
354 |
23.7165675135623 |
c-Myc [T00140] |
0.7823 |
826 |
-976.889740505863 |
HIF-1 [T01609] |
0.9225 |
822 |
-971.624920990705 |
AhR [T01795] |
0.9615 |
180 |
-978.45580117527 |
Como podemos observar, hay motivos que tienen un p-value más pequeño que otros,
a pesar de que el score es considerablemente menor, esto es debido a que el
factor YY1 [T00915] no coincide con ninguna posición que tenga un valor
0, ya que le aportaría una penalización al score de -999.
En el factor NRSF [T06124] todas las coincidencias de nucléotidos
son muy buenas menos una que es cero, esta le provoca una penalización
muy fuerte que hace que el score baje radicalmente, pero esta penalización
no se aplica al p-value con lo que es posible encontrar estas discordancias.
Para saber qué factores estan en nuestra secuencia
promotora no tendremos que tener en cuenta los factores que tengan un score
negativo, a apesar de que esten por encima en cuanto a p-value, un score muy
negativo significará que algún nucléotido del factor tendrá un
valor de 0 en la matriz de factores de transcripción; y por lo tanto, se
le otorgó una penalización de -999 a la matriz de pesos.Esto dar6aacute; lugar a que el score sea muy negativo, por muy bien que se acoplen el resto
de nucleótidos.Esto hará que este factor de transcripción sea
descartado.
El conjunto de factores de transcripción (FTs) que
creemos que se unen a esta región promotora y, por lo tanto, podrían
estar regulando la expresión de este gen son:
NF-AT1 [T00550] |
AP-1 [T00029] |
RXR-alpha [T01345] |
AR [T00040] |
Utilizando el servidor web del programa PROMO, hemos sacado los siguientes
resultados: En SelectSpecies, seleccionamos: 'Current site's species or group:
mouse, Mus musculus'.
En SelectFactors, seleccionamos la lista de factores siguientes:
AP-1 [T00029] |
AR [T00040] |
c-Myc [T00140] |
NF-AT1 [T00550] |
NF-kappaB [T00590] |
SRF [T00764] |
YY1 [T00915] |
RXR-alpha [T01345] |
HIF-1 [T01609] |
AhR [T01795] |
PU.1 [T02068] |
Los sigueintes factores no aparecen:
HNF-4 [T02758] |
NRSF [T06124] |
En SearchSites, pegamos la secuencia promotora para la proteína UFD2.
Finalmente, obtenemos los siguientes resultados:
Factors predicted within a dissimilarity margin less or equal than
15
% :
1 |
10 |
20 |
30 |
40 |
50 |
60 |
70 |
80 |
90 |
100 |
110 |
120 |
130 |
140 |
150 |
160 |
170 |
180 |
190 |
200 |
210 |
220 |
230 |
240 |
250 |
260 |
270 |
280 |
290 |
300 |
310 |
320 |
330 |
340 |
350 |
360 |
370 |
380 |
390 |
400 |
410 |
420 |
430 |
440 |
450 |
460 |
470 |
480 |
490 |
500 |
510 |
520 |
530 |
540 |
550 |
560 |
570 |
580 |
590 |
600 |
610 |
620 |
630 |
640 |
650 |
660 |
670 |
680 |
690 |
700 |
710 |
720 |
730 |
740 |
750 |
760 |
770 |
780 |
790 |
800 |
810 |
820 |
830 |
840 |
850 |
860 |
870 |
880 |
890 |
900 |
910 |
920 |
930 |
940 |
950 |
960 |
970 |
980 |
990 |
1000 |
1010 |
1020 |
1030 |
1040 |
1050 |
1060 |
1070 |
1080 |
1090 |
1100 |
1110 |
Sequence
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Distribution of the nucleotides over the given chain:
Esto nos indica que los 4 primeros factores de transcripción que tienen
un score positivo, están identificados por PROMO como factores en nuestra secuencia
promotora. Estos 4 factores AP-1 [T00029], AR [T00040], NF-AT1 [T00550] y RXR-alpha
[T01345] están detectados en las mismas posiciones que predice nuestro progama
en Perl.
Proteína D4COLE1E:
Con 100 iteraciones para la secuencia promotora de D4COLE1E obtenemos estos
valores:
Los resultados son:
Nombre Factor |
p-value |
Posición de inicio |
Score |
NF-kappaB [T00590] |
0.15 |
961 |
34.5448793253072 |
RXR-alpha [T01345] |
0.31 |
327 |
24.8486039550145 |
NF-AT1 [T00550]: |
0.42 |
500 |
23.4733613536165 |
YY1 [T00915] |
0.44 |
894 |
24.2116480658302 |
PU.1 [T02068] |
0.51 |
218 |
-977.260065780473 |
AP-1 [T00029] |
0.55 |
35 |
-968.992176055531 |
AR [T00040] |
0.56 |
328 |
25.8067043196371 |
HIF-1 [T01609] |
0.59 |
618 |
-970.295344659174 |
NRSF [T06124] |
0.66 |
44 |
-969.156201942427 |
SRF [T00764] |
0.73 |
52 |
-1967.26511644673 |
HNF-4 [T02758] |
0.81 |
34 |
-976.496983532562 |
AhR [T01795] |
0.84 |
467 |
-977.780023882776 |
c-Myc [T00140] |
0.98 |
723 |
-977.21006587956 |
Factors predicted within a dissimilarity margin less or equal than
15
% :
1 |
10 |
20 |
30 |
40 |
50 |
60 |
70 |
80 |
90 |
100 |
110 |
120 |
130 |
140 |
150 |
160 |
170 |
180 |
190 |
200 |
210 |
220 |
230 |
240 |
250 |
260 |
270 |
280 |
290 |
300 |
310 |
320 |
330 |
340 |
350 |
360 |
370 |
380 |
390 |
400 |
410 |
420 |
430 |
440 |
450 |
460 |
470 |
480 |
490 |
500 |
510 |
520 |
530 |
540 |
550 |
560 |
570 |
580 |
590 |
600 |
610 |
620 |
630 |
640 |
650 |
660 |
670 |
680 |
690 |
700 |
710 |
720 |
730 |
740 |
750 |
760 |
770 |
780 |
790 |
800 |
810 |
820 |
830 |
840 |
850 |
860 |
870 |
880 |
890 |
900 |
910 |
920 |
930 |
940 |
950 |
960 |
970 |
980 |
990 |
1000 |
1010 |
1020 |
1030 |
1040 |
1050 |
1060 |
1070 |
1080 |
1090 |
1100 |
1110 |
mm8_knownGene_NM_133435 range=chr4:148312488-148329942 5'pad=0 3'
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Distribution of the nucleotides over the given chain:
Esto nos indica que, los 6 primeros factores de transcripción,
que tienen un score positivo, están identificados por PROMO como factores en
nuestra secuencia promotora. Estos 6 factores NF-AT1 [T00550], AR [T00040],
RXR-alpha [T01345], AhR [T01795], NF-kappaB [T00590] y AP-1 [T00029] están detectados
en las mismas posiciones que predice nuestro progama en Perl. Sólo hay
una pequeña discrepancia en el factor RXR-alpha [T01345] que podemos
atribuir a la diferencia entre las bases de datos de Promo y las nuestras, pero
por lo general, el programa en Perl predice con una sorprendente exactitud lo
que PROMO nos ha mostrado.
Hay que destacar el nuestros p-values son bastante elevados
debido a que nuestro programa en Perl, es una aproximación. para unos
p-values más ajustados tendríamos que implementar una solución
más exacta, con unas matrices de factores más realistas.
Puede probar el programa en Perl con la secuencia promotora que desee y los
factores de transcripción que desee en este enlace:
Prueba tu secuencia.