Human nucleophosmin-anaplastic lymphoma kinase fusion protein


Cristina Gómez Castellà (cristina.gomez02@campus.upf.edu) i Anna González Tendero (ana.gonzalez04@campus.upf.edu)


Facultat de Ciències de la Salut i de la Vida
Universitat Pompeu Fabra



Índex

  1. Introducció
  2. Materials i Mètodes
  3. NPM1
  4. ALK
  5. Caracterització de les regions promotores
  6. Referències

Introducció


Quan es produeix una translocació t(2;5)(p23;q35), es produeix la fusió de porcions dels gens codificants per la proteïna NPM provinent del cromosoma 5 i la proteïna ALK provinent del cromosoma 2; de forma que el resultat és una proteïna de fusió causant d'una malaltia anomenada Non-Hodgkin's limfoma.

La proteïna de fusió conté la seqüència aminoterminal de NPM unida al domini catalític de ALK. NPM es una fosfoproteïna nucleolar, ALK és un receptor protein-tirosin-quinasa transmembrana.

S'ha observat que 1/3 d'aquests limfomes presenten aquesta alteració t(2;5)(p23;q35); per tant la translocació d'aquests protoncogens cel·lulars podria contribuir a la formació de limfomes. Els limfomes en els que hi és present la translocació, involucren nodes limfàtics, pell, pulmons, teixits tous, ossos, tracte gastrointestinal i emergeixen predominantment dels limfòcits T activats. Les cèl·lules malignes resultants d'aquest procés tumoral expressen el receptor d'interleucina (IL-2), l'antigen de CD30 i un receptor per un lligand relacionat amb els factors de necrosis tumorals.

Mitjançant experiments de FISH, PCR, Northern blot i d'altres s'ha determinat quin fragment del gen de fusió prové del gen codificant per NPM i quin fragment del gen prové del gen codificant per ALK. Realitzant experiments de Northern blot amb una sonda per l'extrem 5' de NPM, es va veure que línies cel·lulars positives per la translocació t(2;5) expresen els transcrits normals i a més un transcrit anormal de 2'4kb, mentre que les línies cel·lulars negatives per t(2;5) només expressen els transcrits normals. En canvi, amb una sonda per l'extrem 3' de NPM, només es detectaven els transcrits normals en totes les línies cel·lulars. D'altra banda, amb una sonda per l'extrem 3' del cDNA fusionat, sí es detectava el transcrit anormal de 2'4kb. Es va veure que la seqüència 5' dels transcrits anormals de 2'4kb era idèntica a la seqüència de NPM, però comença a variar a partir de la Valina en posició 117. La seqüència 3' d'aquest codó estava reemplaçadaper 1223 nucleòtids, resultant en una ORF de 1575 nucleòtids.

La seqüència 3' del cDNA del gen de fusió és idèntica a la seqüència 3' d'ALK, que correspon només al seu domini catalític. El transcrit de 2'4kb que dóna lloc a la proteïna quimèrica prové del cromosoma 5 translocat, no hi ha evidència de que el transcrit quimèric s'hagi pogut generar del cromosoma 2.

Es postula que en la proteïna de fusió NPM/ALK, NPM constitueix un promotor actiu per dirigir l'expressió del domini catalític d'ALK en les cèl·lules limfoides que presenten la translocació t(2;5). Aquest fet podria ser crucial pel que fa al paper oncogènic de NPM, ja que el promotor d'ALK normalment es troba silent en aquestes cèl·lules.

El paper oncogènic de la proteïna ALK podria trobar-se en el fet de que la majoria d'oncogens tirosina quinasa, com l'ALK, quan pateixen mutacions o fusions gèniques, porten a una activitat catalítica constitutiva. Segons això, en la proteïna de fusió NPM/ALK, es podria predir que l'ALK truncada es disregula i fosforila substrats intracel·lulars donant lloc a l'activació de la transformació maligna.

Tornar a l'índex


Materials i Mètodes


En la realització d'aquest treball hem cercat la informació en les bases de dades disponibles que aporten dades sobre gens coneguts. Hem estudiat la proteïna de fusió NPM/ALK, formada per parts de dos gens (NPM i ALK) fusionats a causa d'una translocació entre els cromosomes 2 i 5.

Com que en les bases de dades no trobem la informació de la proteïna fusionada, hem estudiat els gens NPM i ALK de forma separada.

A partir de la seqüència proteica donada, hem determinat quina proteïna i quin gen era realitzant un BLASTp.

Primerament ens hem basat en la base de dades de Ensembl per caracteritzar l'estructura genòmica dels dos gens. Per tal de complementar i confirmar la informació, hem cercat en altres bases de dades com UCSC, RefSeq, NCBI, Biomart. Hem utilitzat varies bases de dades degut a que la informació d'una base de dades a una altra pot variar.

Per tal d'estudiar l'homologia dels gens en altres espècies, per un dels gens, Ensembl ens proporcionava una llista d'espècies en les que hi trobem gens ortòlegs. Per l'altre gen, no ens proporcionava cap ortòleg, per aquest motiu hem utilitzat les altres bases de dades abans anomenades. A més a més, per confirmar els ortòlegs i trobar més possibles ortòlegs, hem realitzat Blast. Amb aquesta eina hem complementat la llista.

Amb l'objectiu d'obtenir més dades sobre l'homogia dels gens en altres espècies, hem realitzat un alineament entre totes le seqüències amb el clustalw, amb el qual també hem obtingut un arbre filogenètic.

Altres tipus d'informació com l'expressió, la funció, malalties, etc, ha estat extreta de les bases de dades abans esmentades i d'altres com Gene Ontology, OMIM, VisiGene, Pubmed, InterPro.

Finalment hem volgut caracteritzar la regió promotora del gen. Aquest estudi l'hem fet mitjançant el servidor web del programa PROMO i mitjançant un programa en Perl que hem desenvolupat nosaltres mateixes.

Tornar a l'índex


NPM1



Seqüència proteica:

MEDSMDMDMSPLRPQNYLFGCELKADKDYHFKVDNDENEHQLSLRTVSLGAGAKDELHIVEAEAMNYEGS
PIKVTLATLKMSVQPTVSLGGFEITPPVVLRLKCGSGPVHISGQHLVAVEEDAESEDEEEEDVKLLSISG
KRSAPGGGSKVPQKKVKLAADEDDDDDDEEDDDEDDDDDDFDDEEAEEKAPVKKSIRDTPAKNAQKSNQN
GKDSKPSSTPRSKGQESFKKQEKTPKTPKGPSSVEDIKAKMQASIEKGGSLPKVEAKFINYVKNCFRMTD
QEAIQDLWQWRKSL

Caracterització de l'estructura genòmica:

ENSG00000181163

Es troba al cromosoma 5q35 (170,746,725-170,770,492). Associats a aquest gen hi trobem tres transcrits:


Figura 1. Estructura genòmica dels transcrits del gen NPM1.


Transcrit 1: ENST00000296930

Seqüència


Transcrit 2: ENST00000351986

Seqüència


Transcrit 3:

Seqüència



Isoformes:

Trobem 3 isoformes d'aquesta proteïna, són descrites a continuació:

Les diferents isoformes són obtingudes degut al procés de splicing alternatiu. Les diferències entre elles afecten porcions codificants, tot i això, la pauta de lectura es manté, de manera que les proteïnes obtingudes tenen la mateixa seqüència d'aminoàcids, excepte les variacions de llargada de la proteïna degut a la traducció o no d'algun dels exons.

Estudi de l'homologia del gen en altres espècies:

Hem trobat ortòlegs del gen NPM1 en diferents espècies. La següent taula mostra les espècies i el % d'identitat obtingut en alinear la seqüència proteica de NPM1 d'Homo sapiens amb cada una de les espècies. Els percentatges d'identitat són molt elevats, de manera que podem dir que NPM1 és una proteïna molt conservada.


Espècie % Identitat Espècie % Identitat
Pan troglodytes 100% Pongo pygmaeus 99%
Macaca mulatta 99% Canis familiaris 98%
Bos taurus 95% Mus musculus 94%
Rattus norvegicus 94% Monodelphis domestica 87%


A partir de l'alineament hem construït un arbre filogenètic en el que observem l'evolució d'aquest gen.

Caracterització de l'expressió gènica:

La següent taula ens mostra els teixits en els que s'expressa el gen NPM1. El color negre mostra que no hi ha expressió en aquests teixits; el color verd indica poca expressió i el color vermell denota molta expressió.


Figura 2. Expressió del gen NPM1.

En aquesta imatge podem veure la distribució nucleolar de NPM1. La imatge correspon a un embrió preimplantacional de ratolí visualitzat mitjançant microsopia immunoelectrònica. S'han utilitzat anticossos anti-NPM1.

Estudi de la funció del gen:

Mitjançant la base de dades de Gene Ontology, hem estudiat la funció del gen. La següent taula mostra les anotacions de GO associades a aquest gen, les qual es troben dividides en tres grups: component cel·lular, procés biològic i funció molecular. Els dos últims són els que ens seran més útils per estudiar la funció del gen:

Gene Ontology Funció
GO:0003676 Nucleic acid binding
GO:0003713 Coactivador de la transcripció
GO:0003723 RNA binding
GO:0005515 Protein binding
Funció Molecular GO:0030957 Tat protein binding
GO:0042803 Activitat homodimeritzadora
GO:0046982 Activitat heterodimeritzadora
GO:0051082 Unfolded protein binding
GO:0006886 Transport intracel·lular
GO:0006913 Transport nucleocitoplasmàtic
GO:0006916 Anti-apoptosi
Procés Biològic GO:0006950 Resposta a estrés
GO:0007165 Transducció de senyals
GO:0008285 Regulació negativa de la proliferació cel·lular
GO:0042255 Ensemblatge de ribosomes
GO:0005634 Nucli
Component cel·lular GO:0005730 Nucleol
GO:0005737 Citoplasma
GO:0005813 Centrosoma

NPM1 és un fosfoproteïna no ribosomal que es troba concentrada a la regió granular del nuclèol. Es troba de forma més abundant en cèl·lules tumorals que en cèl·lules normals. Està involucrada en l'ensamblatge de partícules prerribosomals, de les subunitats petites i de les grans. S'uneix amb gran afinitat a àcids nucleics de cadena única, exercint una activitat que desestabilitza l'hèlix de RNA, i a més es troba en associació amb les ribonucleoproteïnes prerribosomals nucleolars més madures. La transcripció i la traducció de NPM estàn regulades pel cicle cel·lular, assolint els nivells més alts just abans de l'entrada en fase S i amb una davallada abans de l'inici de la fase G2.
NPM ha estat identificada com a substrat de CDK2/ciclina E en la duplicació del centrosoma; s'associa amb els centrosomes no duplicats i es dissocia d'ells mitjançant la fosforilació per part de CDK2/ciclina E.
Pel que fa a la seva genètica molecular, es sap que NPM1 regula la via supressora de tumors ARF/p53, així com també que translocacions cromosòmiques que l'involucren provoquen una deslocalització citoplasmàtica, associada a malalties.

Tornar a l'índex


ALK



Seqüència proteica:
MGAIGLLWLLPLLLSTAAVGSGMGTGQRAGSPAAGPPLQPREPLSYSRLQRKSLAVDFVVPSLFRVYARD
LLLPPSSSELKAGRPEARGSLALDCAPLLRLLGPAPGVSWTAGSPAPAEARTLSRVLKGGSVRKLRRAKQ
LVLELGEEAILEGCVGPPGEAAVGLLQFNLSELFSWWIRQGEGRLRIRLMPEKKASEVGREGRLSAAIRA
SQPRLLFQIFGTGHSSLESPTNMPSPSPDYFTWNLTWIMKDSFPFLSHRSRYGLECSFDFPCELEYSPPL
HDLRNQSWSWRRIPSEEASQMDLLDGPGAERSKEMPRGSFLLLNTSADSKHTILSPWMRSSSEHCTLAVS
VHRHLQPSGRYIAQLLPHNEAAREILLMPTPGKHGWTVLQGRIGRPDNPFRVALEYISSGNRSLSAVDFF
ALKNCSEGTSPGSKMALQSSFTCWNGTVLQLGQACDFHQDCAQGEDESQMCRKLPVGFYCNFEDGFCGWT
QGTLSPHTPQWQVRTLKDARFQDHQDHALLLSTTDVPASESATVTSATFPAPIKSSPCELRMSWLIRGVL
RGNVSLVLVENKTGKEQGRMVWHVAAYEGLSLWQWMVLPLLDVSDRFWLQMVAWWGQGSRAIVAFDNISI
SLDCYLTISGEDKILQNTAPKSRNLFERNPNKELKPGENSPRQTPIFDPTVHWLFTTCGASGPHGPTQAQ
CNNAYQNSNLSVEVGSEGPLKGIQIWKVPATDTYSISGYGAAGGKGGKNTMMRSHGVSVLGIFNLEKDDM
LYILVGQQGEDACPSTNQLIQKVCIGENNVIEEEIRVNRSVHEWAGGGGGGGGATYVFKMKDGVPVPLII
AAGGGGRAYGAKTDTFHPERLENNSSVLGLNGNSGAAGGGGGWNDNTSLLWAGKSLQEGATGGHSCPQAM
KKWGWETRGGFGGGGGGCSSGGGGGGYIGGNAASNNDPEMDGEDGVSFISPLGILYTPALKVMEGHGEVN
IKHYLNCSHCEVDECHMDPESHKVICFCDHGTVLAEDGVSCIVSPTPEPHLPLSLILSVVTSALVAALVL
AFSGIMIVYRRKHQELQAMQMELQSPEYKLSKLRTSTIMTDYNPNYCFAGKTSSISDLKEVPRKNITLIR
GLGHGAFGEVYEGQVSGMPNDPSPLQVAVKTLPEVCSEQDELDFLMEALIISKFNHQNIVRCIGVSLQSL
PRFILLELMAGGDLKSFLRETRPRPSQPSSLAMLDLLHVARDIACGCQYLEENHFIHRDIAARNCLLTCP
GPGRVAKIGDFGMARDIYRASYYRKGGCAMLPVKWMPPEAFMEGIFTSKTDTWSFGVLLWEIFSLGYMPY
PSKSNQEVLEFVTSGGRMDPPKNCPGPVYRIMTQCWQHQPEDRPNFAIILERIEYCTQDPDVINTALPIE
YGPLVEEEEKVPVRPKDPEGVPPLLVSQQAKREEERSPAAPPPLPTTSSGKAAKKPTAAEISVRVPRGPA
VEGGHVNMAFSQSNPPSELHKVHGSRNKPTSLWNPTYGSWFTEKPTKKNNPIAKKEPHDRGNLGLEGSCT
VPPNVATGRLPGASLLLEPSSLTANMKEVPLFRLRHFPCGNVNYGYQQQGLPLEAATAPGAGHYEDTILK
SKNSMNQPGP

Caracterització de l'estructura genòmica

ENSG00000171094

Es troba al cromosoma 2p23 (29,269,594-29,997,029). Associats a aquest gen hi trobem dos transcrits1:


Figura 3. Estructura genòmica dels transcrits del gen ALK.



Transcrit 1: ENST00000306036

Seqüència

Transcrit 2: ENST00000389048
Seqüència

Si comparem els dos transcrits anteriors podem veure que pesenten el mateix nombre de parells de bases i residus en la proteïna traduïda. La diferencia entre ells es troba en el nombre d'exons.

Tal i com es pot veure en les imatges següents, les quals corresponen a una part de la seqüència dels exons i introns d'aquests dos transcrits, el transcrit 1 presenta un exó més que el transcrit 2; el transcrit 1 presenta un exó de cinc nucleòtids (exó 9) que no apareix en el transcrit 2.

Si ens fixem en les longituds dels exons i els introns dels dos transcrits podem veure que l'exó 8 del primer transcirt té una llargada de 96 nucleòtids, en canvi aquest mateix exó en el segon transcrit té una llargada de 101 nucleòtids.

Si observem els introns, podem veure que en el transcrit 1 l'intró 8-9 té una longitud de 8883 nucleòtids i l'intró 9-10 és de 12363 nucleòtids. En el cas del transcrit 2, l'intró 8-9 té una longitud de 21246 nucleòtids.

Vist això, ens adonem que hi ha una diferència de 5 nucleòtids en l'exó 8 dels transcrits que es correspon amb els 5 nucleòtids de l'exó 9 del transcrit 1 i que la suma de la longitud dels dos introns del primer transcrit es correspon amb la llargada de l'intró 8-9 del segon transcrit.

En fer l'alineament dels dos transcrits veiem que difereixen en un sol nucleòtid, canvia una citosina per una guanina.


Figura 4. Seqüència parcial del transcrit 1.


Figura 5. Seqüència parcial del transcrit 2.



1: A l'Ensembl apareixen 3 transcrits però vem fer l'alineament dels transcrits ENST00000389048 i ENST00000389049 i ens va sortir un 100% d'identitat, per tan considererem que té dos transcrits enlloc de tres.


Isoformes:
En aquest cas la proteïna no presenta isoformes. Els dos transcits es diferencien en un sol nucleòtid i les proteïnes resultants de cada transcrit es diferencien en un aminoàcid, ja que el nucleòtid que varia es troba en la primera posició del codó corresponent. Tal i com es pot veure en l'alineament, a la posició 548 canvia una cisteïna per una serina. Sembla que no juga un paper important en la funció de la proteïna.

Estudi de l'homologia del gen en altres espècies:

Hem trobat els ortòlegs del gen ALK en diferents espècies. La següent taula mostra les espècies i el % d'identitat amb cada una d'elles. Hem utilitzat un criteri propi per tal de decidir quines espècies considerem que presenten un gen ortòleg. Aquest criteri és agafar només aquelles espècies que presente un percentatge d'identitat superior al 60 %.

Espècie % Identitat Espècie % Identitat
Bos taurus 77 % Canis familiaris 70 %
Dasypus novemcinctus 68 % Echinops telfairi 65 %
Felis catus 83 % Loxodonta africana 66 %
Macaca mulatta 97 % Monodelphis domestica 62 %
Mus musculus 87 % Pan troglodytes 87 %
Rattus norvegicus 88 % Tupaia belangeri 74 %


A partir de l'alineament hem construït un arbre filogenètic en el que observem l'evolució d'aquest gen.

Caracterització de l'expressió

En aquesta taula podem veure l'expressió de la proteïna en diferents teixits. El color negre mostra que no hi ha expressió en els teixits; el color verd indica poca expressió i el vermell denota molta expressió.


Figura 6. Expressió del gen ALK.

Estudi de la funció del gen:

Mitjançant la base de dades de Gene Ontology, hem estudiat la funció del gen. La següent taula mostra les anotacions de GO associades a aquest gen, les qual es troben dividides en tres grups: component cel·lular, procés biològic i funció molecular. Els dos últims són els que ens seran més útils per estudiar la funció del gen:

Gene Ontology Funció
GO:0000166 Unió a nucleòtids
GO:0004672 Activitat protein-quinasa
GO:0004713 Activitat protein-tirosin-quinasa
GO:0004714 Receptor transmembrana amb activitat protein-tirosin-quinasa
Funció Molecular GO:0004716 Receptor senyalitzador de proteïna amb activitat tirosin-quinasa
GO:0004872 Receptor
GO:0005524 ATP binding
GO:0016301 Activitat quinasa
GO:0016740 Activitat transferasa
GO:0006468 Activitat quinasa
Procés Biològic GO:0007169 Receptor transmembrana
GO:0007399 Desenvolupament del sistema nerviós
GO:0007420 Desenvolupament cerebral
Component cel·lular GO:0016020 Membrana

El gen ALK codifica per un receptor transmembrana tirosin-quinasa, la seva expressió fisiològica en mamífers es troba molt limitada a regions específiques del sistema nerviós central i perifèric. La proteïna ALK està involucrada en oncogènesis, tant de tumors hematopoiètics com no hematopoiètics, ja que fusions gèniques d'ALK són presents en tumors miofibroblèstics i limfomes. L'expressió disregulada d'ALK està relacionada amb tumors no limfoides, com sarcomes, neuroblastomes i gliomes. La regió C-terminal conté el domini catalític, i la regió N-terminal conté dominis de dimerització.

Tornar a l'índex


Caracterització de les regions promotores


Hem extret la regió promotora del gen 1kb upstream i 100bp downstream del lloc de començament de la transcripció. A partir de la regió promotora, hem determinat un conjunt de factors de transcripció que podrien unir-se a aquesta regió. Com que la proteïna és una proteïna quimèrica que prové d'un gen fusionat producte d'una translocació, hem seleccionat la regió promotora del gen que es troba en primera posició, és a dir, el NPM1.

Per tal de seleccionar el conjunt de factors que s'uneixen a la regió promotora, ho hem fet de dues formes: d'una banda mitjançant un programa en Perl que hem desenvolupat nosaltres mateixes, d'altra banda, utilitzant el servidor web del programa PROMO.

Programa en Perl:

Aquest programa ha estat desenvolupat per tal de que a partir d'una sèrie de matrius donades, que han estat extretes de les matrius utilitzades pel programa PROMO i a partir d'una seqüència promotora en format fasta, mitjançant una sèrie de procediments, ens proporcioni el p-value de cada factor de transcripció. El p-value és la probabilitat de que el factor de transcripció s'uneixi a la seqüència promotora per atzar, per tant, com més baix sigui aquest valor, ens indica que la probabilitat de que el factor de transcripció s'uneixi a la seqüència promotora, és alta, és a dir, que la probabilitat de que s'uneixi per atzar és baixa.

Programa PROMO :

Aquest programa ens mostra un llistat de factors de transcripció que es poden unir a la seqüència promotora del gen d'interès. En introduir la seqüència, per defecte ens dóna els factors de transcripció que presenten com a màxim un 15% de dissimilaritat. Per tal d'acotar la llista de factors de transcripció, hem posat el màxim de dissimilaritat a 3%. D'aquesta manera, obtenim aquest llistat. Ens fixem en aquells que presenten un RE query inferior a 0'09 (marcats en color verd), ja que com més baix sigui el valor, ens indica que la probabilitat de que el factor de transcripció s'uneixi i que no sigui degut a l'atzar, és alta. A més, els valors de dissimilaritat són també baixos en aquests factors de transcripció seleccionats.

El programa PROMO utilitza moltes matrius per un factor de transcripció. Si comparem els resultats obtinguts amb el nostre programa en Perl i els obtinguts amb el programa PROMO, no coincideixen. La raó és el fet de que PROMO utilitza moltes matrius per un factor de transcripció, i en el programa en Perl només utilitzem una matriu. Segurament les matrius que nosaltres hem utilitzat i les utilitzades per PROMO són diferents. A part d'això, el procés per determinar els factors de transcripció que s'uneixen a la regió promotora és molt més complex que el que hem realitzat mitjançant el programa en Perl.

Veiem, però, que hi ha alguns factors de transcripció que sí coincideixen: RXR-alpha [T01345] i YY1 [T00915], aquest últim amb un valor RE query molt alt en PROMO. Tot i això, els llocs d'unió no són els mateixos.

Tornar a l'índex

Referències


  1. Bonvini P, Gastaldi T, Falini B, Rosolen A.Nucleophosmin-anaplastic lymphoma kinase (NPM-ALK), a novel Hsp90-client tyrosine kinase: down-regulation of NPM-ALK expression and tyrosine phosphorylation in ALK(+) CD30(+) lymphoma cells by the Hsp90 antagonist 17-allylamino,17-demethoxygeldanamycin.Cancer Res.1;62(5)1559-66, 1996
  2. Morris SW, Kirstein MN, Valentine MB, Dittmer K, Shapiro DN, Look AT, Saltman DL. Fusion of a kinase gene, ALK, to a nucleolar protein gene, NPM, in non-Hodgkin's lymphoma.Science.20267(5196):316-7.1994
  3. Yee HT,Ponzoni M,Merson A,Goldstein M,Scarpa A,Chilosi M,Menestrina F,Pittaluga S,de Wolf-Peeters C,Shiota M, Mori S,Frizzera G,InghiraBlood.Molecular characterization of the t(2;5) (p23; q35) translocation in anaplastic large cell lymphoma (Ki-1) and Hodgkin's disease.Blood1;87(3)1081-8, 1996
  4. www.ebi.ac.uk/biomart
  5. www.ebi.ac.uk/clustalw
  6. www.ebi.ac.uk/interpro
  7. www.ensembl.org
  8. www.geneontology.org
  9. www.genome.ucsc.edu
  10. www.ncbi.nlm.nih.gov

Tornar a l'índex