Para extraer la región promotora del gen formada por 
  1kb upstream del sitio de inicio de la transcripción (TSS) y 100bp downstream 
  del TSS, hemos utilizado UCSC siguiendo 
  las estos pasos: 
Vamos a Genome Browser, seleccionamos Mouse en el campo 'genome', 
  ponemos la primera proteína de fusión (UFD2) en el campo "position 
  or search", presionamos en "Submit" y luego, seleccionamos el 
  primer gen conocido "Ube4b (NM_022022) at chr4:148172217-148270549". 
  A continuación, se muestra la descripción gráfica del gen, 
  le damos en "Ube4b", y aparece una página con información 
  sobre el gen seleccionado. Vamos a la sección 'Sequence' y clickamos en 
  el link de la secuancia del gen:  
  Genomic (chr4:148,172,217-148,270,549) , selccionamos el box Promoter/Upstream 
  by 1000 bases, deseleccionamos los boxes: 5' UTR Exons, CDS Exons, 3' UTR Exons 
  y Introns. Seleccionamos el box: Downstream by 100 bases. En el apartado de 'Sequence 
  Formatting Options' seleccionamos 'All upper case' y le damos a 'Submit' 
Aquí tenemos los 
  1100 nucléotidos de la secuencia promotora para UFD2.
Aquí tenemos los 
  1100 nucléotidos de la secuencia promotora para D4COLE1E.
 
  Conjunto de factores de transcripción (FTs):
 
Para encontrar el conjunto de factores de transcripción 
  que se unen a esta región promotora, hemos desarrollado un programa en 
  Perl que nos muestre los valores de p-value, Score y posición del factor.
El código del programa en Perl 
  se puede descargar aquí. 
Proteina UFD2:
 Ejecutando el programa en Perl con 10000 iteraciones para la secuencia promotora de UFD2 obtenemos estos 
  valores:
Los resultados son:
   
    | Nombre Factor | p-value | Posición de inicio | Score | 
   
    | AP-1 [T00029] | 0.1863 | 501 | 32.4414681452575 | 
   
    | RXR-alpha [T01345] | 0.2328 | 125 | 25.0792985930272 | 
   
    | NF-AT1 [T00550]: | 0.2369 | 632 | 24.267640487346 | 
   
    | NRSF [T06124] | 0.2454 | 735 | -966.681815608207 | 
   
    | AR [T00040] | 0.4104 | 785 | 26.4425972839364 | 
   
    | SRF [T00764] | 0.4223 | 287 | -965.892260904397 | 
   
    | PU.1 [T02068] | 0.4617 | 630 | -977.088011891059 | 
   
    | HNF-4 [T02758] | 0.5459 | 397 | -975.931147993392 | 
   
    | NF-kappaB [T00590] | 0.6367 | 616 | -966.831964208492 | 
   
    | YY1 [T00915] | 0.7054 | 354 | 23.7165675135623 | 
   
    | c-Myc [T00140] | 0.7823 | 826 | -976.889740505863 | 
   
    | HIF-1 [T01609] | 0.9225 | 822 | -971.624920990705 | 
   
    | AhR [T01795] | 0.9615 | 180 | -978.45580117527 | 
  Como podemos observar, hay motivos que tienen un p-value más pequeño que otros, 
  a pesar de que el score es considerablemente menor, esto es debido a que el 
  factor YY1 [T00915] no coincide con ninguna posición que tenga un valor 
  0, ya que le aportaría una penalización al score de -999.
 En el factor NRSF [T06124] todas las coincidencias de nucléotidos 
  son muy buenas menos una que es cero, esta le provoca una penalización 
  muy fuerte que hace que el score baje radicalmente, pero esta penalización 
  no se aplica al p-value con lo que es posible encontrar estas discordancias.
 Para saber qué factores estan en nuestra secuencia 
  promotora no tendremos que tener en cuenta los factores que tengan un score 
  negativo, a apesar de que esten por encima en cuanto a p-value, un score muy 
  negativo significará que algún nucléotido del factor tendrá un 
  valor de 0 en la matriz de factores de transcripción; y por lo tanto, se 
  le otorgó una penalización de -999 a la matriz de pesos.Esto dar6aacute; lugar a que el score sea muy negativo, por muy bien que se acoplen el resto 
  de nucleótidos.Esto hará que este factor de transcripción sea 
  descartado.
 El conjunto de factores de transcripción (FTs) que 
  creemos que se unen a esta región promotora y, por lo tanto, podrían 
  estar regulando la expresión de este gen son:
  
    | NF-AT1 [T00550] | 
  
    | AP-1 [T00029] | 
  
    | RXR-alpha [T01345] | 
  
    | AR [T00040] | 
 Utilizando el servidor web del programa PROMO, hemos sacado los siguientes 
  resultados: En SelectSpecies, seleccionamos: 'Current site's species or group: 
  mouse, Mus musculus'.
  En SelectFactors, seleccionamos la lista de factores siguientes:
   
    | AP-1 [T00029] | 
   
    | AR [T00040] | 
   
    | c-Myc [T00140] | 
   
    | NF-AT1 [T00550] | 
   
    | NF-kappaB [T00590] | 
   
    | SRF [T00764] | 
   
    | YY1 [T00915] | 
   
    | RXR-alpha [T01345] | 
   
    | HIF-1 [T01609] | 
  
    | AhR [T01795] | 
   
    | PU.1 [T02068] | 
 Los sigueintes factores no aparecen: 
  
    | HNF-4 [T02758] | 
  
    | NRSF [T06124] | 
 En SearchSites, pegamos la secuencia promotora para la proteína UFD2.
Finalmente, obtenemos los siguientes resultados: 
Factors predicted within a dissimilarity margin less or equal than
15
 % :
    
    
	| 1 | 10 | 20 | 30 | 40 | 50 | 60 | 70 | 80 | 90 | 100 | 110 | 120 | 130 | 140 | 150 | 160 | 170 | 180 | 190 | 200 | 210 | 220 | 230 | 240 | 250 | 260 | 270 | 280 | 290 | 300 | 310 | 320 | 330 | 340 | 350 | 360 | 370 | 380 | 390 | 400 | 410 | 420 | 430 | 440 | 450 | 460 | 470 | 480 | 490 | 500 | 510 | 520 | 530 | 540 | 550 | 560 | 570 | 580 | 590 | 600 | 610 | 620 | 630 | 640 | 650 | 660 | 670 | 680 | 690 | 700 | 710 | 720 | 730 | 740 | 750 | 760 | 770 | 780 | 790 | 800 | 810 | 820 | 830 | 840 | 850 | 860 | 870 | 880 | 890 | 900 | 910 | 920 | 930 | 940 | 950 | 960 | 970 | 980 | 990 | 1000 | 1010 | 1020 | 1030 | 1040 | 1050 | 1060 | 1070 | 1080 | 1090 | 1100 | 1110 | 
	| Sequence |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  | 
Distribution of the nucleotides over the given chain: 
  Esto nos indica que los 4 primeros factores de transcripción que tienen 
  un score positivo, están identificados por PROMO como factores en nuestra secuencia 
  promotora. Estos 4 factores AP-1 [T00029], AR [T00040], NF-AT1 [T00550] y RXR-alpha 
  [T01345] están detectados en las mismas posiciones que predice nuestro progama 
  en Perl.
Proteína D4COLE1E:
Con 100 iteraciones para la secuencia promotora de D4COLE1E obtenemos estos 
  valores:
Los resultados son:
   
    | Nombre Factor | p-value | Posición de inicio | Score | 
   
    | NF-kappaB [T00590] | 0.15 | 961 | 34.5448793253072 | 
   
    | RXR-alpha [T01345] | 0.31 | 327 | 24.8486039550145 | 
   
    | NF-AT1 [T00550]: | 0.42 | 500 | 23.4733613536165 | 
   
    | YY1 [T00915] | 0.44 | 894 | 24.2116480658302 | 
   
    | PU.1 [T02068] | 0.51 | 218 | -977.260065780473 | 
   
    | AP-1 [T00029] | 0.55 | 35 | -968.992176055531 | 
   
    | AR [T00040] | 0.56 | 328 | 25.8067043196371 | 
   
    | HIF-1 [T01609] | 0.59 | 618 | -970.295344659174 | 
   
    | NRSF [T06124] | 0.66 | 44 | -969.156201942427 | 
   
    | SRF [T00764] | 0.73 | 52 | -1967.26511644673 | 
   
    | HNF-4 [T02758] | 0.81 | 34 | -976.496983532562 | 
   
    | AhR [T01795] | 0.84 | 467 | -977.780023882776 | 
   
    | c-Myc [T00140] | 0.98 | 723 | -977.21006587956 | 
Factors predicted within a dissimilarity margin less or equal than
15
 % :
    
    
	| 1 | 10 | 20 | 30 | 40 | 50 | 60 | 70 | 80 | 90 | 100 | 110 | 120 | 130 | 140 | 150 | 160 | 170 | 180 | 190 | 200 | 210 | 220 | 230 | 240 | 250 | 260 | 270 | 280 | 290 | 300 | 310 | 320 | 330 | 340 | 350 | 360 | 370 | 380 | 390 | 400 | 410 | 420 | 430 | 440 | 450 | 460 | 470 | 480 | 490 | 500 | 510 | 520 | 530 | 540 | 550 | 560 | 570 | 580 | 590 | 600 | 610 | 620 | 630 | 640 | 650 | 660 | 670 | 680 | 690 | 700 | 710 | 720 | 730 | 740 | 750 | 760 | 770 | 780 | 790 | 800 | 810 | 820 | 830 | 840 | 850 | 860 | 870 | 880 | 890 | 900 | 910 | 920 | 930 | 940 | 950 | 960 | 970 | 980 | 990 | 1000 | 1010 | 1020 | 1030 | 1040 | 1050 | 1060 | 1070 | 1080 | 1090 | 1100 | 1110 | 
	| mm8_knownGene_NM_133435 range=chr4:148312488-148329942 5'pad=0 3' |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  | 
Distribution of the nucleotides over the given chain: 
Esto nos indica que, los 6 primeros factores de transcripción, 
  que tienen un score positivo, están identificados por PROMO como factores en 
  nuestra secuencia promotora. Estos 6 factores NF-AT1 [T00550], AR [T00040], 
  RXR-alpha [T01345], AhR [T01795], NF-kappaB [T00590] y AP-1 [T00029] están detectados 
  en las mismas posiciones que predice nuestro progama en Perl. Sólo hay 
  una pequeña discrepancia en el factor RXR-alpha [T01345] que podemos 
  atribuir a la diferencia entre las bases de datos de Promo y las nuestras, pero 
  por lo general, el programa en Perl predice con una sorprendente exactitud lo 
  que PROMO nos ha mostrado.
Hay que destacar el nuestros p-values son bastante elevados 
  debido a que nuestro programa en Perl, es una aproximación. para unos 
  p-values más ajustados tendríamos que implementar una solución 
  más exacta, con unas matrices de factores más realistas.
  
  
Puede probar el programa en Perl con la secuencia promotora que desee y los 
  factores de transcripción que desee en este enlace:
Prueba tu secuencia.