Estudio genómico computacional de la proteína de fusión NPM1/ALK1


Núria Pérez Martín (nurillapm@hotmail.com) y María Saiz Guinaldo (mariasaiz85@yahoo.es)

Facultat de Ciències de la Salut i de la Vida
Universitat Pompeu Fabra



Índice

  1. Resumen
  2. Resultados y Discusión

    2.1 Estructura genómica


  3. 2.2 Conservación en otras especies
    2.3 Caracterización de la expresión
    2.4 Caracterización de las regiones promotoras
    2.5 Función del gen

  4. Métodos
  5. Referencias



Resumen

En este ensayo presentamos un estudio genómico computacional de la proteína de fusión ALK 1/NPM 1. Hemos optado por analizar cada una de las proteínas por separado determinando su estructura genómica, homología con otras especies, su expresión tisular, función y qué factores de transcripción podrían unirse a su región promotora.
Nuestra proteína es una proteína de fusión entre el gen ALK (anaplasic lymphoma kinase) y el gen NPM (nucleophosmine). La proteína resultante de la traducción del gen ALK es miembro de la familia de receptores Tyrosin-Kinasa y la proteína resultante de la traducción del gen NPM es miembro de la familia de fosfoproteínas nucleolares implicadas en la ayuda del ensamblaje del ribosoma.
Esta proteína de fusión se debe a una traslocación entre los cromosomas 5 (NPM) y 2 (ALK) a causa de la cual la proteína ALK pierde sus domimios transmembrana causando una homodimeriación de la proteína y una activación de la función kinasa. Esta traslocación aparece en las células anaplásicas de limfoma, es decir, se trata de un producto oncogénico.
El extremos 5' de nuestra proteína se corresponde con una parte de la proteína NPM 1 y el extremo 3' pertenece a ALK 1.

MEDSMDMDMSPLRPQNYLFGCELKADKDYHFKVDNDENEHQLSLRTVSLGAGAKDEL
HIVEAEAMNYEGSPIKVTLATLKMSVQPTVSLGGFEITPPVVLRLKCGSGPVHISGQ
HLVVYRRKHQELQAMQMELQSPEYKLSKLRTSTIMTDYNPNYCFAGKTSSISDLKEV
PRKNITLIRGLGHGAFGEVYEGQVSGMPNDPSPLQVAVKTLPEVCSEQDELDFLMEA
LIISKFNHQNIVRCIGVSLQSLPRFILLELMAGGDLKSFLRETRPRPSQPSSLAMLD
LLHVARDIACGCQYLEENHFIHRDIAARNCLLTCPGPGRVAKIGDFGMARDIYRASY
YRKGGCAMLPVKWMPPEAFMEGIFTSKTDTWSFGVLLWEIFSLGYMPYPSKSNQEVL
EFVTSGGRMDPPKNCPGPVYRIMTQCWQHQPEDRPNFAIILERIEYCTQDPDVINTA
LPIEYGPLVEEEEKVPVRPKDPEGVPPLLVSQQAKREEERSPAAPPPLPTTSSGKAA
KKPTAAEVSVRVPRGPAVEGGHVNMAFSQSNPPSELHKVHGSRNKPTSLWNPTYGSW
FTEKPTKKNNPIAKKEPHDRGNLGLEGSCTVPPNVATGRLPGASLLLEPSSLTANMK
EVPLFRLRHFPCGNVNYGYQQQGLPLEAATAPGAGHYEDTILKSKNSMNQPGP

Volver al índice


Resultados y Discución

Para poder realizar un estudio genómico computacional de la proteína de fusión ALK 1/NPM 1 nos hemos basado en la búsqueda de información en diversos artículos científicos y diferentes bases de datos.

Estructura genómica

Como se ha especificado anteriormente, la proteína en la que basamos este trabajo, resulta de la fusión del gen ALK1 y el gen NPM1.

El gen ALK1 se encuentra localizado en el cromosoma 2 brazo p 23.2.


Figuras 1 y 2: Localización cromosómica del gen ALK.1,2

Este gen consta de 30 exones. No observamos evidencias de exones no codificantes (UTR) en la traducción de esta proteína en la base de datos de Ensembl. Pero en cambio, si analizamos este gen en la base de datos UCSC encontramos que el gen tiene 907 nucleótidos upstream que forman parte de un UTR y 448 nucleótidos downstream que forman parte de un exón no codificante.
Consta de dos tránscritos, uno de ellos con 30 exones y el otro de 29 exones. En las bases de datos encontramos que esta proteína tiene 3 tránscritos pero realizando un alineamiento entre éstos observamos que dos de ellos tienen un 100% de identidad por lo que concluímos que debe tratarse del mismo tránscrito.
La regulación por splicing alternativo del exón 9 comporta su desaparición. Este proceso se debe a que los cinco nucleótidos que forman éste exón son iguales a los 5 primeros nucleótidos del intrón 8-9, de esta forma se produce un splicing que englobaría estos nucleótidos intrónicos en el final del exón 8 y el exón 9 pasaría a formar parte del intrón 8-9. De esta forma se mantiene la pauta de lectura aunque obtenemos una proteína con un exón menos pero con el mismo número de aminoácidos en la proteína traducida final. Existe un cambio motivado por este splicing altenativo que convella a la presencia de una cisteína en la posición 548 en vez de una serina. Esto se muestra de manera gráfica en el siguiente link.
La parte de la proteína que se fusiona con NPM1 consta de 10 exones que se corresponden con la parte final de ALK1. Esta región no se ve afectada por el splicing por lo tanto pensamos que ambos tránscritos podrían formar parte de la proteína de fusión.

En la siguiente figura podemos ver una representación exónica de los diferentes tránscritos.

Figura 3: Estructura genómica de los tránscritos del gen ALK1.3


El gen NPM1 se encuentra localizado en el cromosoma 5 en el brazo q35.1.


Figuras 4 y 5: Localización cromosómica del gen NPM.1,4

Este gen consta de 12 exones. De estos 12 exones, el primero no es codificante conteniendo 119 nucleótidos. El segundo exón contiene una secuencia no codificante a su inicio de 16 nucleótidos y a partir de éstos comienza la secuencia codificante. También existe una región no codificante en el último exón que abarca los últimos 318 nucleótidos de la secuencia.
Este gen contiene dos tránscritos, uno de 12 exones y el otro de 11 que se dan por la pérdida del exón 9 por splicing alternativo. La diferencia entre las isoformas encontradas en cada tránscrito se dan en una región codificante, hecho que provoca que la proteína sea de menor tamaño. Se mantiene la pauta de lectura, la parte anterior a este exón y la parte posterior son idénticas en ambas proteínas, pero sin embargo en una aparece el exón 9 codificante y en la otra no. Toda esta información proviene de la base de datos de Ensembl pero hemos contrastado estos datos con la información que aparece en UCSC. En esta base nos aparecen tres isoformas para esta proteína. Mirando las correspondencias con RefSeq, comprobamos que dos de estas tres isoformas son exactamente iguales a los tránscritos encontrados en Ensembl. En este trabajo nos basaremos en Ensembl ya que nos parece más fiable la información proporcionada para este gen.
La parte de la proteína que se fusiona con ALK1 alcanza los cinco primeros exones de ésta, siendo el primero UTR (no codificante).

En la siguiente figura (Figura 2) podemos ver una representación exónica de los diferentes tránscritos.

Figura 6: Estructura genómica de los tránscritos del gen NPM1.3


Volver al índice

Conservación en otras especies

Para estudiar la conservación de las proteínas ALK1 y NPM1 en las diferentes especies nos hemos basado en los datos proporcionados por Ensembl. Hemos contrastado el porcentaje de identidad mediante BIOMART obteniendo los mismo restultado que los observados en Ensembl.

El gen ALK1 se encuentra en 25 especies además de en humano. En la siguiente tabla podemos ver un resumen de las diferentes especies donde se ecuentra, el identificador de Ensembl correspondiente para cada ortólogo y el porcentaje de identidad de cada especie con Homo sapiens. De las 25 especies encontradas hemos hecho una selección de aquellas que tienen un porcentaje de homología superior a 60%.

Especie ortóloga Identificador Ensembl Porcentaje de identidad Imagen
Macaca Mulatta ENSMMUG00000010265 97
Rattus norvegicus ENSRNOG00000008683 88
Pan troglodytes ENSPTRG00000011796 87
Mus musculus ENSMUSG00000055471 87
Felis catus ENSFCAG00000001792 83
Bos taurus ENSBTAG00000007379 77
Tupaia belangeri ENSTBEG00000016366 74
Canis familiaris ENSCAFG00000005297 70
Dasypus novemcinctus ENSDNOG00000007522 68
Loxodonta africana ENSLAFG00000014602 66
Echinops telfairi ENSETEG00000007715 65
Oryctolagus cuniculus ENSOCUG00000001085 63
Monodelphis domestica ENSMODG00000015531 62

Tabla 1: Especies ortólogas para ALK 1.3

Esta tabla está ordenada de mayor a menor porcentaje de homologia, siendo la primera especie en aparecer Macaca mulatta seguido de Rattus norvegicus.
También hemos realizado un árbol filogenético del gen ALK1 en las diferentes especies en las que se encuentra. En el árbol aparece Pan troglodytes como especie más cercana a Homo sapiens, siendo Macaca mulatta la segunda formando el grupo de primates y el grupo formado por los roedores es el más cercano a ellos. Dentro de esta rama debería estar incluido Monodelphis domestica ya que se trata de un roedor pero creemos que no está bien secuenciado ya que aparece muy alejado del grupo de roedores.

Para el gen NPM 1 no hemos encontrado especies ortólogas en Ensembl. Para verificar estos resultados, intentamos buscar en BIOMART secuencias ortólogas en las diferentes especies mediante el identificador de Ensembl sin obtener resultado alguno. Realizamos un BlastP en NCBI utilizando la secuencia proteica de NPM y obtuvimos secuencias homólogas con un e-value siempre mayor de 0. Las que tenían un e-value menor correspondían a proteínas humanas y la mayoría de las que pertenecían a otras especie resultaban ser hipotéticas por lo que decidimos descartarlas.

Volver al índice

Caracterización de la expresión

El gen ALK1 se expresa principalmente en el cerebro y el sistema nervioso central. También lo podemos encontrar en el intestino delgado y testículos. Normalmente no se expresa en células linfoides. En los siguientes links podéis encontrar la expresión tisular de este gen, en rojo aparecen los tejidos donde se presenta mayor expresión de este gen y en verde aquellos donde hay menos expresión. En negro encontramos los tejido donde no hay expresión de este gen:

El gen NPM1 se encuentra expresado en gran parte de los tejidos. Esta proteína se asocia con ribonucleoproteínas y une ssDNA, hecho que podría justificar su gran extensión tisular. En los siguientes links podéis encontrar la expresión tisular de este gen.


Volver al índice

Caracterización de las regiones promotoras

Para poder determinar los factores de transcripción capaces de unirse a las regiones promotoras de nuestra proteína de fusión hemos desarrollado un programa en Perl capaz de leer las diferentes secuencias promotoras y determinar posibles lugares de unión a diferentes factores de transcripción que nos han sido proporcionados en forma de matriz. Mediante este programa obtenemos la región donde cada factor es capaz de unirse así como el score máximo obtenido. También obtenemos el valor de p-value para esta posición que nos permitirá determinar, junto con el score, cuales son los factores que se unen de manera específica a la secuencia.
Por otro lado, hemos analizado las secuencias promotoras de cada una de las dos proteínas mediante el programa PROMO obteniendo una lista de los posibles factores que pueden unirse a las secuencias promotoras. Para la obtención de los factores hemos aplicado un 5% de disimilaridad como filtro para obtener únicamente aquellos que presentan una similitud del 95%. De todos los obtenidos, escogimos únicamente aquellos que presentaban un E-value inferior al 0.09 ya que son los que seguramente se unirán a la secuencia promotora.

Tenemos que destacar que las matrices que nos proporcionaron para desarrollar el programa contienen datos diferentes a las utilizadas por PROMO. Ésto podría explicar las diferencias entre ambas predicciones.

Volver al índice

Función del gen

El producto del gen ALK es un receptor transmembrana de señalización con actividad tirosina kinasa. Está implicado en el desarrollo del sistema nervioso, desde su formación hasta la maduración de su estructura. También se ha visto que está implicado en el desarrollo del mesodermo intestinal. Actualmente no se conoce nada sobre el ligando de ALK pero se cree que podría ser un factor soluble o una proteína anclada a membrana, incluso el receptor ALK podría actuar como una molécula de reconocimiento celular permitiendo la interacción entre células. Es posible que ALK esté involucrada en la interacción neurona-neurona o neurona-glía. Ésto junto al hecho de que la expresión de ALK es más alta en estados neonatales indica que esta interacción puede estar implicada en la formación de la red neuronal o en el crecimiento del cono axonal.5

El producto del gen NPM es una fosfoproteína nucleolar que se encuentra continuamente viajando entre el núcleo y el citoplasma. Está involucrado en la activación del factor de transcripción NF-KappaB6, ensamblaje y el transporte ribosomal7, estabilidad y la transcripción de p537, involucrado en el transporte de proteínas7, down-regulation de la proliferación celular7, transporte nucleocitoplasmático7, respuesta al estrés7, se encuentra regulada por CDK2/Cyclin E en la duplicación del centrosoma8, transducción de señales9 y también actuaría como chaperona molecular previniendo la agregación de proteínas en los alrededores del núcleo.

El producto de la translocación cromosómica t(2;5)(p23;q35) genera un híbrido que contiene un dominio intracelular perteneciente a ALK1 con actividad tirosina kinasa yuxtapuesta a NPM. Esta proteína de fusión tiene constitutivamente activada la actividad tirosin-kinasa y es capaz de transformar células hematopoyéticas en tumorales produciendo entre un 50 y 60% de los casos de ALCL (anaplastic large-cell lymphomas). Éstos son un tipo de linfomas no-Hodgkin10. La vía por la que esta proteína quimérica genera transformación de las células en tumorales solo se entiendo parcialmente. Se ha visto que esta activación constitutiva produce una activación de la vía de señalización MEK/ERK implicada en procesos de proliferación, diferenciación, supervivencia, migración y división celular11.

Volver al índice


Métodos

En la realización de este trabajo hemos utilizado y nos hemos basado en métodos computacionales.

  1. Estructura genómica
  2. Para poder realizar un análisis correcto de los dos genes que forman parte de la proteína de fusión hemos utilizados tres bases de genomas diferentes:

    En ellas podemos encontrar la secuencia genómica que corresponde a cada una de las proteínas, su localización cromosómica, los exones en los que se dividen estas secuencias, los diferentes tránscritos que darán lugar a las diferentes isoformas de las dos proteínas entre otros.

  3. Conservación en otras especies
  4. Para estudiar las especies que presentan proteínas ortólogas a las nuestras nos hemos basado en las encontradas en Ensembl y para confirmar éstas hemos buscado secuencias de homología especie por especie en BIOMART. En UCSC también encontramos especies que presentan proteínas ortólogas a las nuestras pero los datos que proporcionan no son tan claros como los de Ensembl. Para encontrar secuencias ortólogas en NCBI realizamos un BlastP que nos contrasta todas las secuencias proteicas que contiene esta base de datos con la que nosotros le introducimos. En nuestro caso, todas las que obtuvimos por este método eran humanas o se trataba de proteínas hipotéticas. No encontramos ninguna secuencia que presentara un e-value igual a 0.
    Para crear el árbol filogenético del gen ALK utilizamos los cDNAs de todas las especies ortólogas y las alineamos en ClustalW. Posteriormente, importamos el documento con las secuencias alineadas al programa MEGA, dónde realizamos la filogenia de este gen.

  5. Caracterización de la expresión
  6. Para encontrar la expresión tisular de ambos genes utilizamos la base de datos UCSC. En esta página se nos muestran tres tipos de microaarrays distintos donde encontramos tejidos y la expresión diferencial de cada gen en ellos.

  7. Caracterización de las regiones promotoras
  8. La determinación de las regiones promotoras de ambos genes se basa en la comparación de los resultados obtenidos mediante el programa en Perl elaborado por nosotras y los obtenidos mediante PROMO.
    El programa en Perl se basa en la generación de unas matrices de pesos a partir de unas matrices de recurrencias proporcionadas. Posteriormente calculamos el score máximo obtenido para cada factor de transcripción dentro de la secuencia promotora de cada una de las proteínas asi como la posición del nucleótido inicial al que se une el promotor. A continuación generamos una secuencia aleatoria del promotor y calculamos el score máximo para esta secuencia random. Únicamente aquellas secuencias random que tengan un score superior al de la secuencia original serán válidas para el cálculo del p-value.
    El programa PROMO se basa la búsqueda de patrones de unión de factores de transcripción dentro de la secuencia del promotor. En primer lugar elegimos que buscase factores de transcripción humanos y restringimos la búsqueda a aquellos que presentaban un 5% de disimilaridad. Posteriormente, de los resultados obtenidos escogimos aquellos que presentaban un e-value de menos de 0.09. Realizamos otra búsqueda seleccionando únicamente los factores de transcripción presentes en las matrices proporcionadas para realizar el programa.

  9. Función del gen
  10. El estudio de la función del gen se basa en los resultados obtenidos en GeneOntology y diversos artículos encontrados en la literatura disponible como por ejemplo PubMed.

    Volver al índice


    Referencias

    1. UCSC
    2. Atlas of Genetics and Cytogenetics in Oncology and Haematology ALK
    3. Ensembl
    4. Atlas of Genetics and Cytogenetics in Oncology and Haematology NPM1
    5. Toshinori Iwahara, Jiro Fujimoto, Duanzhi Wen, Rod Cupples, Nathan Bucay,Tsutomu Arakawa, Shigeo Mori, Barry Ratzkin and Tadashi Yamamoto. Molecular characterization of ALK, a receptor tyrosine kinase expressed specifically in the nervous system. Oncogene 14:439-49, 1997.
    6.Sanjit K. Dhar, Bert C. Lynn, Chotiros Daosukho, and Daret K. St. Clair. Identification of Nucleophosmin as an NF-B Co-activator for the Induction of the Human SOD2 Gene J. Biol. Chem.279(27):28209-19, 2004
    7. Emanuela Colombo, Jean-Christophe Marine, Davide Danovi, Brunangelo Falini & Pier Giuseppe Pelicci. Nucleophosmin regulates the stability and transcriptional activity of p53. Nature Cell Biology 4 :529-3, 2002.
    8. M. Okuda, H. Horn, P. Tarapore, Y. Tokuyama, A. Smulian, P. Chan, E. Knudsen, I. Hofmann, J. Snyder, K. Bove. Nucleophosmin/B23 Is a Target of CDK2/Cyclin E in Centrosome Duplication. Cell 103(1):127-40.
    9. Arnaud Bruneel, Dr., Valérie Labas, Agnès Mailloux, Sanjiv Sharma, Nicolas Royer, Joëlle Vinh, Pascal Pernet, Michel Vaubourdolle, Bruno Baudin. Proteomics of human umbilical vein endothelial cells applied to etoposide-induced apoptosis. PROTEOMICS 5 (15):3876-84.
    10. Sanjit K. Dhar, Bert C. Lynn, Chotiros Daosukho, and Daret K. St. Clair, Fangxian Sun, Peter G. Schultz, Nathanael S. Gray, and Markus Warmuth, Gang Xia, Ruo Steensma, Greg Chopiuk, Jiqing Jiang, Yongqin Wan, Peter Ding, Yi Liu, Anna V. Galkin, Jonathan S. Melnick, Sungjoon Kim, Tami L. Hood, Nanxin Li, Lintong Li. Identification of Nucleophosmin as an NF-B Co-activator for the Induction of the Human SOD2 Gene. PNAS 1(4):270-5, 2006.
    11. M Marzec, M Kasprzycka, X Liu, PN Raghunath, P Wlodarski and MA Wasik. Oncogenic tyrosine kinase NPM/ALK induces activation of the MEK/ERK signaling pathway independently of c-Raf.Oncogene 26:813-21.

    Volver al índice