DNA Microarrays i Càncer de Pròstata  

Per cortesia de Amarant Martínez Carrió i Jordi Martínez-Quintanilla Martínez. 4t Curs Biologia Humana. Curs 2002-2003.

Universita Pompeu Fabra

Introducció


El càncer de pròstata és el tipus de càncer més extès i dels més greus en l'home. Malgrat existeixen proves, com el screening del PSA, que identifiquen la malaltia, aquestes no són prou específiques. La caracterització dels perfils d’expressió gènica mitjançant la hibridació de microarrays pot permetre distingir molecularment en neoplàsies prostàtiques els gens involucrats en la carcinogènesi de pròstata (potencials gens diana de disseny de fàrmacs), elucidar biomarcadors clínics, i porta necessàriament cap a una millora de la classificació dels càncers de pròstata.

Recentment, dos grups diferents han utilitzat els microarrays de DNA per tal d'identificar un conjunt de gens predictius del desenvolupament de metàstasis a curt termini. En concret, van estudiar l'expressió de més de 15000 gens en grups de teixits de pròstata que incluien mostres metastàsiques i mostres no malignes. Tant un grup com l'altre proposen gens que poden ésser utilitzats com a marcadors tumorals. L'objectiu del projecte és revelar un conjunt de gens comuns als dos grups que podrien ser bons marcadors tumorals.


Els Microarrays

Els microarrays són una col·lecció de biomolècules ordenades ortogonalment sobre un suport sòlid miniaturitzat, és a dir, els microarrays són una peça petita que conté molts pous a cada un dels quals s´ha introduit una seqüència de cDNA de cadena simple d´un gen determinat.

Els microarrays és una de les tècniques més recents amb les que compta la biologia molecular. Va ser desenvolupada a finals dels anys 80 i és una eina molt útil per trobar diferències d´expressió gènica entre cèl.lules o teixits que estan sotmesos a diferents condicions. Així podem trobar els gens que estan sobreexpresat o reprimits en les diferents fases del cicle cel·lular, durant el procés de desenvolupament dels òrgans, en resposta a diferents estímuls externs (temperatura) o en diferents condicions patològiques, com per exemple el càncer. A partir d´aquests patrons d´expressió es poden predir certes condicions patològiques.

Procediment d´obtenció d´un experiment de microarrays



Processament de la informació obtinguda en l´experiment de microarrays



Tipus d´agrupaments


Hi ha diversos tipus d´agrupament o clusterings utlitzats en microarrays:

El clustering és un procés d´agrupament de dades de tal forma que els objectes d´un cluster tinguin una similaritat alta entre ells i baixa entre els objectes d´altres clustering.


Coneixements Previs

El nostre treball ha estat basat en l'estudi de dos articles. Aquests articles són els següents:



Investigació dirigida per Dhanasekaran

El grup de recerca dirigit per Dhanasekaran va examinar mitjançant l’ús de microarrays de cDNA, els perfils d’expressió gènica de més de 50 mostres de teixit prostàtic normal i neoplàsic, en les que es va analitzar l’expressió d’un total de 9.984 gens. Les mostres analitzades foren les següents: 4 mostres de BPH (Glàndules Hipertrofiades Benignes), 8 mostres de NAP (Teixit Prostàtic Normal Adjacent), 1 pool comercial de teixit normal de pròstata de 19 individus, 1 mostra de prostatitis, 11 PCA (mostres de càncer de pròstata localitzat), 7 MET (mostres de càncer de pròstata metastàsics), 3 línies de càncer de pròstata metastàsic : DU-145, LnCAP, PC3. A més, es van incloure en l’estudi 28 mostres de teixit de pròstata addicional. Com a mostres de referència es van utilitzar 2 pools diferents: 1 pool de NAP de pacients amb càncer de pròstata i un pool comercial.

Un cop obtinguts els valors d’expressió per cada gen, es van utilitzar diferents mètodes estadístics (t-test) per centrar l’anàlisi només en els gens que tenen una expressió significativament major en les mostres tumorals. Per agrupar els gens i les mostres experimentals segons les relacions d’expressió gènica obtingudes al microarray es va utilitzar un algoritme de clustering jeràrquic. Per visualitzar aquestes dades van fer servir un dendrograma, on el patró de les branques reflectia el grau de relació dels gens.

El resultat de l’estudi va ser que hi havia un conjunt de gens sobreexpressats que podien servir com a marcadors de càncer de pròstata. Aquest set de gens és el següent: HPN (hepsina), LIM (ENIGMA), Pim1 (proto-oncogen), MYC (proto-oncogen), Sintasa d’àcids grassos, TIMP2, HEVIN, RIG, THBS1 (thrombospondin-1), MTA-1 (metastasis-associated1), MYBL2 i FLS353. Aquests gens identificats per anàlisi de microarray van ésser corroborats posteriorment mitjançant Northern Bloot.


Investigació dirigida per Welsh

El grup de recerca dirigit per Welsh va caracteritzar el càncer de pròstata primari mitjançant la monitorització dels nivells d’expressió de més de 8900 gens en teixits normals i teixits malignes. La finalitat del grup d’investigadors era augmentar l’especificitat per detectar el càncer de pròstata invasiu i trobar noves dianes terapèutiques específiques del càncer de pròstata. Les mostres que van utilitzar van ser les següents: 25 mostres derivades de teixit de càncer de pròstata, 9 mostres provinents de teixits prostàtics no malignes, i 21 línies cel·lulars. Com a control van utilitzar les següents línies cel·lulars: PrEC (Epiteli Prostàtic Normal), hPr1 (cél·lules infectades amb papiloma), CAF1598, 1303, 1852, 2585 (fibroblasts adjacents a l’adenocarcinoma), BPHF 1598 (Glàndules Hipertrofiades Benignes), PrSC (Cèl·lules de l’Estroma Prostàtic).

Els valors d’expressió obtinguts (intensitat d’hibridació) van ser normalizats per cada gen. Gens i mostres van ésser agrupades mitjançant clustering jeràrquic. L’expressió diferencial dels gens en teixits benignes i malignes de pròstata va ésser estimada mitjançant un algorsime basat en les diferències d’intensitat de la hibridació (utumor - unormal), el quocient d’intensitats d’hibridació (utumor / unormal) i el resultat d’un t-test de dades no aparellades dels nivells d’expressió en tumor i teixits normals. Els gens van ser puntuats segons aquests tres paràmetres i ordenats segons la suma de les tres puntuacions. Amb els valors obtinguts es va dibuixar un dendrograma en el que la similaritat total és proporcional a la longitud de les branques verticals.

El perfils d’expressió gènica obtinguts van revelar l’existència d’un grup d’uns 400 gens que es troben sobreexpressats en tumors. Els més importants d’aquests gens estan representats en la figura següent:

Fig. 4 Gens sobrexpressats en tumor de pròstata segons els experiments de Welsh


Desenvolupament del treball

Els passos que hem dut a terme per realitzar el nostre treball estan resumits als següents punts:

  1. De totes les mostres de teixit que tenim hem escollit les que són tumorals i les que són normals, i hem eliminat les mostres control que havien utilitzat els investigadors. Així fem una comparació directa de mostres tumorals versus no tumorals. Els fitxers inicials dels dos treballs sobre els quals hem realitzat totes les modificacions i càlculs són Fitxer de dades de Dhanasekaran i Fitxer de dades de Welsh.

  2. Hem decidit eliminar mitjançant la comanda egrep del UNIX tots els gens que no tenien valors d’expressió per a totes les mostres ja que volíem assegurar-nos que realment els gens que obteníem estiguessin sobreexpressats en tumors i poc expressats en cèl·lules normals. Si agafàvem gens que no tenien un valor en tots els teixits podia donar lloc a errors a l’hora de comparar els valors entre teixit tumoral i no tumoral. Vam marcar amb Ms Excel les caselles buides de tota la taula i vam conservar amb la comanda egrep tots els gens que tenen un valor en cada mostra de teixit. La comanda utilitzada fou la següent:

    egrep –v borrar fitxerinicial.txt > fitxerfinal.txt.

  3. En principi totes les taules de microarrays s’han de normalitzar per poder veure les diferències d’expressió entre els gens. La taula del grup de Welsh ja la vam obtenir amb valors normalitzats d'expressió, però la taula de Danasekaran la vam haver de normalitzar. La normalització consisteix en reconstruïr la taula mitjançant uns valors que estiguin en relació amb la mitja i la desviació estàndar de cada gen. Els gens que estiguin sobreexpressats seran positius mentre que els que no ho estiguin seran negatius. El valor de la normalització s´ha de recalcular per a cada gen amb la següent fòrmula:


  4. Hem efectuat una prova t-test per als valors d’expressió dels diferents gens analitzats de les mostres per tal de seleccionar només els gens que tenen una p-value (probabilitat de que la hipòtesi nul·la sigui certa) inferior a 0’001 (0’1%). Després d’efectuar aquesta selecció ens hem quedat amb 1179 gens del treball de Welsh i 162 del treball de Dhanasekaran.

  5. Hem transformat les taules de cada fitxer per obtenir el format d´entrada pel programa Gene Cluster. Aquest programa utilitza un algoritme d'agrupació jeràrquic que genera un arbre que representa l’espressió diferencial dels gens, i que podem visualitzar mitjançant el programa Tree View Gene. En aquest arbre podem seleccionar els clusters d'agrupació que més ens interessen. Agafem, per tant, tots aquells gens que estiguin sobreexpressats en tumor (vermell en l´arbre) i que no ho estiguin en els teixits normals (verd en l´arbre). Obtenim 40 gens pel set de Danasekaran i 268 gens pel set de Welsh. Els arbres obtinguts mitjançant el programa Gene Cluster són els següents:

    Arbre de Dhanasekaran

    Arbre de Welsh

  6. Per corroborar aquests valors hem efectuat un altre tipus d'anàlisi d'agrupació. Aquest tipus de clustering és l'anomenat K-mean i no es tracta d'una agrupació jeràrquica sinó divisiva a diferència del clustering jeràrquic. Aquest clustering l'hem realitzat amb el programa Expression Profiler accessible per internet. L'agrupació K-mean no genera un arbre jeràrquic però sí que ens permet seleccionar clusters d'agrupació específicament. Els resultats obtinguts amb aquest tipus d'anàlisi són molt semblants als obtinguts en l'anàlisi anterior: en el set de Dhanasekaran obtenim 40 gens sobreexpressats (exactament els mateixos obtinguts anteriorment) mentre que en el set de Welsh hi ha un total de 280 gens sobreexpressats (en comptes dels 268 d'abans). Donats aquests resultats, decidim escollir per a l'anàlisi posterior el set de 280 gens enlloc del set de 268 gens de l'estudi de Welsh ja que és més probable trobar gens compartits si el conjunt de gens a comparar és major.

  7. Arribats a aquest punt, el problema que tenim és que els noms dels gens no són els mateixos als dos sets, i per dur a terme l’anàlisi fa falta estandaritzar-los. Per fer això obtem per buscar els Representative mRNA Acces que corresponen a cada gen, és a dir, els NM098.... Aquests noms els obtenim de la web amb el programa source, i els guardem en un fitxer, de manera que ara només tindrem dos fitxers amb una columna de noms cadascun que corresponen als gens sobreexpressats en cada estudi. En aquests fitxers hem hagut d'eliminar alguns gens ja que no hem trobat el seu Representative mRNA Acces i, per tant, no teniem cap manera de comparar-los. Ara només falta relacionar aquests dos fitxers per obtenir el conjunt de gens sobreexpressats que estan compartits per ambdós estudis. Això ho fem utilitzant comandes UNIX de la següent manera:

    El fet de trobar gens compartits en els dos experiments fa que els resultats siguin més fiables.

Resultats i Discussió



Conclusions

Les conclusions a les que hem arribat després de realitzar el nostre anàlisi són les següents:



Per qualsevol dubte o suggerència que tingueu no dubteu en enviar-nos un mail!!       
      Una salutació dels qui han creat la pàgina