Los datos analizados en este trabajo los hemos obtenido en la base de datos GEO, dentro del apartado Bladder tumor stage classification y vamos a comparar los estadíos Ta vs T1 y Ta vs T2 (datos iniciales)
Para obtener estos datos se utilizó la técnica de los microarrays de canal único, técnica desarrollada por Affimetrix. Consiste en comparar la muestra problema (tumoral) con muestras de tejido normal que estan almacenadas en un software, en vez de utilizar dos muestras marcadas cada una con un fluorocromo diferente. Se obtuvieron un total de 7128 genes.
El t-test es una función que permite hacer pruebas de contraste de hipótesis y calcular el p-value, que es la probabilidad de que la hipótesis nula sea cierta. Una vez lo hayamos calculado para cada uno de los genes, entramos en Datos > Ordenar y en esta aplicación seleccionamos la columna t-test y la opción ascendente, de forma que todos los datos quedan ordenados de menor a mayor en función del p-value. Solo debemos seleccionar los genes que tengan un p-value menor de 0.001 y que por lo tanto cumplen la hipótesis nula. En el caso de comparar Ta con T1 obtenemos 430 genes y si comparamos Ta con T2 obtenemos 108.
El siguiente paso es utilizar el programa pMarge para calcular el p-value ajustado de los 430 y 108 genes obtenidos anteriormente. En este programa introducimos dos tipos de ficheros:
En este programa se deben definir 2 parámetros:
Debemos ordenar los valores de p-value ajustado de la misma manera que hicimos anteriormente (Datos > Ordenar > Ascendente) y seleccionar solo aquellos genes con un p-value menor de 0'001.
Para ello utilizamos el programa SOURCE, donde introducimos el codigo GenBank y elegimos el organismo al que pertenece (Homo sapiens). Por último seleccionamos UniGene Name y clicamos a submit.
Algunos de los genes no pudimos identificarlos (nos lo indica poniendo Data not found) y los eliminamos del archivo ya que no serán útiles para análisis posteriores.
N= (valor - media)/ desviación estándar
El programa que hemos utilizado para normalizar nuestros datos es una herramienta dentro de la página de GEPAS (Gene Expression Pattern Analysis Suite) a la que accedemos mediante los siguientes pasos:
GEPAS > tools > Preprocessing
Con los datos normalizados del paso anterior hacemos un cluster jerárquico que construye un árbol con la expresión diferencial de los genes. El resultado del cluster se puede visualizar mediante el programa Treeview. El programa utilizado es el Hierachical Clustering Server, al cual podemos acceder a partir de GEPAS > Tools > Cluster. Hierachical Clustering Server.
En este programa podemos combiar diversos parámetros:
Los parámetros que estan por defecto en este programa y que en principio utilizamos son:
pero utilizando estas opciones no se agrupaban correctamente las diferentes muestras, es decir se mezclaban muestras de T1, Ta y T2, Ta. Por esta razón decidimos utilizar la distancia euclídea donde no se producían alteraciones en la agrupación.
Es posible que estos errores se deban a que dentro de la clase Ta pueden definirse diversos grados y los más avanzados tienen características muy similares a la siguiente clase (T1 y T2) y por esto el cluster nos agrupaba diversas muestras de Ta con muestras T1 y T2.
Una vez seleccionados los comparamos con los genes obtenidos del artículo "Gene discovery in bladder cancer progression using cDNA microarrays", para ver si al analizar muestras similares obtenemos la sobreexpresión de los mismos genes. Los datos del artículo los obtuvimos de la siguiente dirección: http://mskcc/GCL/BladderGenomics/cDNA/
Para compararlos, en primer lugar debemos tener tanto nuestros genes como los del artículo con la misma nomenclatura. Para ello utilizamos el programa Source, donde introducimos la lista de genes con los identificadotes correspondientes (GeneBank accesion), y elegimos la opción "Representative mRNA Acc", de esta forma obtenemos todos los genes identificados como NM_00...
Una vez tenemos todos los genes con igual nomenclatura, queremos identificar si hay alguno que se encuentre sobreexpresado en nuestro análisis y también lo esté en el artículo, para ello tenemos que utilizar diversas comandas de UNIX:
Partimos de 3 ficheros:
Utilizamos las comandas:
Para comprobar que no haya genes repetidos dentro de cada uno de los ficheros y si los hay, quitar las repeticiones, hacemos:
$cut -f 2 articulo.txt > articulo2.txt $sort articulo2.txt | uniq > art2.txt $egrep NM art2.txt > articulo3.txt (hacemos esto mismo para T1 y T2 y obtenemos los ficheros T1c.txt y T2c.txt)cut: obtenemos un archivo con solo la columna de los NM
sort: ordena los genes (NM) y quita las posibles repeticiones
egrep: selecciona y guarda solo aquellas lineas que empiezan por NM (descarta por ejemplo, los not found) Ahora para ver si hay repeticiones comparando Ta vs T1 y Ta vs T2 hacemos:
$cat T1c.txt articulo3.txt | sort | uniq -c | gawk '{if($1>=2){print $2} }' (hacemos esto mismo para comparar T2c.txt y articulo3.txt)Con esta comanda lo que le estamos diciendo es que nos enseñe los nombres de los genes NM (cat), los ordene (sort), haga una lista de los genes, quite y cuente el número de posibles repeticiones (uniq -c). Con la comanda gawk estamos pidiendo que mire si hay algun gen que esté repetido 2 o más veces y si lo hay, que nos enseñe cuál es. Al aplicar esta serie de comandas hemos visto que NO hay ningún gen repetido entre nuestros ficheros (T1 y T2) y el fichero del artículo.
Hay diversos programas que nos ayudan a identificar el proceso metabólico en que están implicados estos genes:
Una vez dentro de DAVID, nos dirigimos al apartado Downloads > EASE y lo descargamos ya que este programa necesita de su instalación para poder ser utilizado. Introducimos los genes (tanto del artículo como los sobreexpresados en T1 y en T2) y dentro de la opción Input genes seleccionamos Either load > Genbank human suplemental. Finalmente clicamos a annotate genes y obtendremos una tabla donde nos muestra el código Genbank, el identificador del gen, el nombre del gen, su símbolo y un resumen de las funciones en que está implicado.
Introducimos los genes mediante su código GenBank, y especificamos el organismo a analizar (en nuestro caso humano) y el grupo de Gene Ontology en el que queremos que busque la función, que en este caso será el proceso biológico.
Fatigo nos muestra mediante un gráfico los procesos biológicos más representados entre el conjunto de genes que hemos introducido y posteriormente te muestra cada una de las categorías (movilidad celular, respuesta a estrés,...) por separado con los genes que se agrupan en ella y su descripción.
![]() |
![]() |