Material y métodos

Obtención de los datos

Los datos analizados en este trabajo los hemos obtenido en la base de datos GEO, dentro del apartado Bladder tumor stage classification y vamos a comparar los estadíos Ta vs T1 y Ta vs T2 (datos iniciales)

Para obtener estos datos se utilizó la técnica de los microarrays de canal único, técnica desarrollada por Affimetrix. Consiste en comparar la muestra problema (tumoral) con muestras de tejido normal que estan almacenadas en un software, en vez de utilizar dos muestras marcadas cada una con un fluorocromo diferente. Se obtuvieron un total de 7128 genes.

t-test y cálculo del p-value ajustado

A partir de las muestras iniciales y utilizando Microsoft Excel, realizamos la prueba t-test para seleccionar aquellos genes que estan sobreexpresados en estadíos avanzados del tumor y no lo están en estadíos iniciales. Por lo tanto nuestra hipótesis nula será que haya diferencias significativas entre las expresiones de los genes en los diferentes estadíos y la hipótesis alternativa, que no haya dichas diferencias.

El t-test es una función que permite hacer pruebas de contraste de hipótesis y calcular el p-value, que es la probabilidad de que la hipótesis nula sea cierta. Una vez lo hayamos calculado para cada uno de los genes, entramos en Datos > Ordenar y en esta aplicación seleccionamos la columna t-test y la opción ascendente, de forma que todos los datos quedan ordenados de menor a mayor en función del p-value. Solo debemos seleccionar los genes que tengan un p-value menor de 0.001 y que por lo tanto cumplen la hipótesis nula. En el caso de comparar Ta con T1 obtenemos 430 genes y si comparamos Ta con T2 obtenemos 108.

El siguiente paso es utilizar el programa pMarge para calcular el p-value ajustado de los 430 y 108 genes obtenidos anteriormente. En este programa introducimos dos tipos de ficheros:

Lista tabulada: es la lista de genes guardada en Excel en formato "texto delimitado por tabulaciones"
Fichero de las clases: debemos diferenciar entre aquellos valores que son de T1, T2 y Ta mediante un sistema binario (0 y 1). Para ello, en el caso de comparar T1 con Ta, creamos una página nueva de Excel en la que identificamos con 0 las muestras de Ta y con 1 las muestras de T1. Queremos que los 0 y 1 estén en una columna vertical y para conseguir esto hacemos Edición > Pegado especial > Transponer.

En este programa se deben definir 2 parámetros:

número de genes seleccionados. En nuestro caso seleccionamos "All"
método de computación del p-value ajustado. Utilizaremos el método BH (Benjamini Hochberg)

Debemos ordenar los valores de p-value ajustado de la misma manera que hicimos anteriormente (Datos > Ordenar > Ascendente) y seleccionar solo aquellos genes con un p-value menor de 0'001.

Identificación de los genes seleccionados

Antes de continuar con el análisis de los genes sobreexpresados es importante saber de qué genes se trata para poder descartar aquellos que no seamos capaces de identificar.

Para ello utilizamos el programa SOURCE, donde introducimos el codigo GenBank y elegimos el organismo al que pertenece (Homo sapiens). Por último seleccionamos UniGene Name y clicamos a submit.

Algunos de los genes no pudimos identificarlos (nos lo indica poniendo Data not found) y los eliminamos del archivo ya que no serán útiles para análisis posteriores.

Normalización

Para continuar con los pasos posteriores de nuestro análisis necesitamos que los datos estén comprendidos entre -1 y 1 y para ello realizamos la normalización de los valores. Un valor positivo significará la sobreexpresión del gen y un valor negativo, la no sobreexpresión. Para normalizar los valores debemos relacionarlos con la media y la desviación estándar, tal como indica la siguiente fórmula:

N= (valor - media)/ desviación estándar

El programa que hemos utilizado para normalizar nuestros datos es una herramienta dentro de la página de GEPAS (Gene Expression Pattern Analysis Suite) a la que accedemos mediante los siguientes pasos:

GEPAS > tools > Preprocessing

Cluster y Treeview

Con los datos normalizados del paso anterior hacemos un cluster jerárquico que construye un árbol con la expresión diferencial de los genes. El resultado del cluster se puede visualizar mediante el programa Treeview. El programa utilizado es el Hierachical Clustering Server, al cual podemos acceder a partir de GEPAS > Tools > Cluster. Hierachical Clustering Server.

En este programa podemos combiar diversos parámetros:

Cluster conditions: en nuestro caso seleccionamos UPGMA using euclidean distance
Cluster method: Unweighted pair-group method using arithmetic averages (UPGMA)
Distance: Euclidean (normal)

Los parámetros que estan por defecto en este programa y que en principio utilizamos son:

Cluster conditions: UPGMA using correlation distance
Distance: Correlation Coeff. (linear)

pero utilizando estas opciones no se agrupaban correctamente las diferentes muestras, es decir se mezclaban muestras de T1, Ta y T2, Ta. Por esta razón decidimos utilizar la distancia euclídea donde no se producían alteraciones en la agrupación.

Es posible que estos errores se deban a que dentro de la clase Ta pueden definirse diversos grados y los más avanzados tienen características muy similares a la siguiente clase (T1 y T2) y por esto el cluster nos agrupaba diversas muestras de Ta con muestras T1 y T2.

Comparación de genes sobreexpresados con los genes del artículo

Una vez realizado el cluster y visualizados sus resultados con el programa treeview, escogemos los genes que se encuentran sobreexpresados en estadíos avanzados del tumor (T1 y T2). Podemos identificarlos gracias a la diferencia de colores que presentan al representarlos en el programa Treeview (color rojo en las muestras (T1 o T2) y color verde en Ta).

Una vez seleccionados los comparamos con los genes obtenidos del artículo "Gene discovery in bladder cancer progression using cDNA microarrays", para ver si al analizar muestras similares obtenemos la sobreexpresión de los mismos genes. Los datos del artículo los obtuvimos de la siguiente dirección: http://mskcc/GCL/BladderGenomics/cDNA/

Para compararlos, en primer lugar debemos tener tanto nuestros genes como los del artículo con la misma nomenclatura. Para ello utilizamos el programa Source, donde introducimos la lista de genes con los identificadotes correspondientes (GeneBank accesion), y elegimos la opción "Representative mRNA Acc", de esta forma obtenemos todos los genes identificados como NM_00...

Una vez tenemos todos los genes con igual nomenclatura, queremos identificar si hay alguno que se encuentre sobreexpresado en nuestro análisis y también lo esté en el artículo, para ello tenemos que utilizar diversas comandas de UNIX:

Partimos de 3 ficheros:

Fichero con los genes del artículo (articulo.txt)
Fichero con los genes sobreexpresados en T1 (T1.txt)
Fichero con los genes sobreexpresaados en T2 (T2.txt)

Utilizamos las comandas:

sort: para ordenar alfabéticamente los nombres de los genes.
uniq: te indica cuantas repeticiones de cada nombre hay y elimina las repeticiones
- uniq -c: hace una lista de los genes y tambié cuenta e indica el número de repeticiones
egrep: permite buscar patrones dentro de ficheros

Para comprobar que no haya genes repetidos dentro de cada uno de los ficheros y si los hay, quitar las repeticiones, hacemos:

    $cut -f 2 articulo.txt > articulo2.txt 
    $sort articulo2.txt | uniq > art2.txt 
    $egrep NM art2.txt > articulo3.txt
    
    (hacemos esto mismo para T1 y T2 y obtenemos los ficheros T1c.txt y T2c.txt)

cut: obtenemos un archivo con solo la columna de los NM

sort: ordena los genes (NM) y quita las posibles repeticiones

egrep: selecciona y guarda solo aquellas lineas que empiezan por NM (descarta por ejemplo, los not found) Ahora para ver si hay repeticiones comparando Ta vs T1 y Ta vs T2 hacemos:


    $cat T1c.txt articulo3.txt | sort | uniq -c | gawk '{if($1>=2){print $2} }'

   (hacemos esto mismo para comparar T2c.txt y articulo3.txt)

Con esta comanda lo que le estamos diciendo es que nos enseñe los nombres de los genes NM (cat), los ordene (sort), haga una lista de los genes, quite y cuente el número de posibles repeticiones (uniq -c). Con la comanda gawk estamos pidiendo que mire si hay algun gen que esté repetido 2 o más veces y si lo hay, que nos enseñe cuál es. Al aplicar esta serie de comandas hemos visto que NO hay ningún gen repetido entre nuestros ficheros (T1 y T2) y el fichero del artículo.

Búsqueda de vías metabólicas

Una vez sabemos qué genes se encuentran sobreexpresados en estadíos avanzados del tumor de vejiga, es importante conocer en que vías metabólicas están implicados con tal de poder establecer una relación entre el aumento de su transcripción, la fisiología del cáncer y el proceso invasivo del mismo.

Hay diversos programas que nos ayudan a identificar el proceso metabólico en que están implicados estos genes:

Programa Fatigo : Este programa asigna la función más característica de Gene Ontology a cada gen. Gene Ontology (GO) proporciona descripciones consistentes de los productos génicos, ya que podemos encontrar descripciones muy diferentes para un mismo producto génico si observamos diferentes bases de datos. GO clasifica los genes en tres grandes grupos:
- Función molecular.
- Proceso biológico.
- Componente celular.
Programa EASE: Este programa se encuentra dentro de la base de datos DAVID (Database for Annotation, Visualization and Integrated Discovery) y proporciona soluciones para la anotación y análisis de datos a escala genómica derivados de tecnologías tan novedosas como microarrays y plataformas proteómicas.
Una vez dentro de DAVID, nos dirigimos al apartado Downloads > EASE y lo descargamos ya que este programa necesita de su instalación para poder ser utilizado. Introducimos los genes (tanto del artículo como los sobreexpresados en T1 y en T2) y dentro de la opción Input genes seleccionamos Either load > Genbank human suplemental. Finalmente clicamos a annotate genes y obtendremos una tabla donde nos muestra el código Genbank, el identificador del gen, el nombre del gen, su símbolo y un resumen de las funciones en que está implicado.

Introducimos los genes mediante su código GenBank, y especificamos el organismo a analizar (en nuestro caso humano) y el grupo de Gene Ontology en el que queremos que busque la función, que en este caso será el proceso biológico.

Fatigo nos muestra mediante un gráfico los procesos biológicos más representados entre el conjunto de genes que hemos introducido y posteriormente te muestra cada una de las categorías (movilidad celular, respuesta a estrés,...) por separado con los genes que se agrupan en ella y su descripción.