RESUM
El treball que es presenta a continuació tracta de la proteïna NFAT5, subjecte d'estudi de la unitat d'Immunologia de la Universitat Pompeu Fabra. En aquest treball s'ha fet una aproximació a l'estudi del gen i la proteïna des del punt de vista bioinformàtic.
En primer lloc s'ha fet un anàlisi de l'estructura del gen que codifica per NFAT5. S'han analitzat els diferents trànscrits i les característiques principals de cadascun d'ells. A continuació s'ha procedit a estudiar la conservació del gen al llarg de l'evolució, en un total de 24 espècies. Dins d'aquest apartat també s'han tractat més detalladament 8 espècies i un total de 9 seqüències amb l'objectiu d'analitzar la seva estructura exònica. El següent punt tractat ha estat l'estudi de l'expressió de la proteïna i posteriorment la seva funció. Finalment, un últim punt important ha estat la caracterització de la regió promotora a partir de l'estudi dels factors de transcripció que s'hi poden unir.
Existeixen molts altres punts en l'estudi de la proteïna NFAT5 abordables des d'una vessant informàtica i que poden ser d'interès per part de la unitat d'Immunologia, però degut a les limitacions de temps i tenint en compte que el treball s'emmarca dins l'assignatura de bioinformàtica, aquests punts no s'han pogut tractar detalladament. Un d'ells ha estat l'inici de l'estudi de dominis repetitius en l'exó C-terminal de la proteïna, que s'ha iniciat mitjançant el programa HMMER, i que fins al moment no s'han obtingut resultats concloents. Aquest i d'altres punts d'interès podrien ser represos eventualment en l'assignatura de Biologia Estructural.
RESULTATS
1. CARACTERITZACIÓ DE L'ESTRUCTURA GENÒMICA
La base de dades que utilitzem principalment per a la caracterització de l'estructura genòmica és Ensembl, per bé que els resultats són coincidents amb la informació que podem trobar a altres bases de dades com poden ser UCSC o la de GenBank.
El gen que codifica per a la proteïna NFAT5 es troba al cromosoma 16 humà, concretament a la regió 68,156,498-68,296,070, i el començament del gen està localitzat al Contig AC009032.8.1.184511.
En la base de dades d'Ensembl hi trobem un total de cinc trànscrits associats a la proteïna NFAT5. Cada un dels diferents trànscrits presenten una mida d'unes 14Kb . Els trànscrits estan catalogats com a VEGA genes, ja que les seqüències han estat anotades a mà. El nombre d'exons (tan codificants com no codificants) dels diferents trànscrits varia entre 14 i 16, i la proteïna té una longitud d'entre 1455 i 1549 residus. Els diferents trànscrits varien en funció de dos paràmetres: 1) El nombre d'exons codificants i 2) El nombre d'exons no codificants, determinat per les regions UTR als extrems 3' i 5'. A la taula 1 podem veure l'estructura dels diferents trànscrits (regions sense colorejar corresponen a regions UTR, la resta són regions exòniques codificants).
Trànscrit ID (vega) | Nombre d'exons no codificants | Nombre d'exons codificants | Nombre de residus | Estructura exònica | Seqüència proteica |
OTTHUMT00000155673 | 16 | 11 | 1455 | MGGACSSFTTSSS... | |
OTTHUMT00000155674 | 15 | 11 | 1455 | MGGACSSFTTSSS... | |
OTTHUMT00000155675 | 15 | 14 | 1549 | MPSDFISLLSADE... | |
OTTHUMT00000155676 | 14 | 13 | 1531 | MPSDFISLLSADE.. | |
OTTHUMT00000155677 | 14 | 11 | 1455 | MGGACSSFTTSSS... |
Els tres trànscrits que presenten 1455 aminoàcids es diferencien entre ells per les regions UTR 5' i 3' degut a un splicing alternatiu diferent en cadescun d'ells. El trànscrit OTTHUMT00000155673 presenta uns exons a les regions 5'UTR i 3'UTR de 1281 i 8307 nucleòtids respectivament que no apareixen en els trànscrits OTTHUMT00000155674 ni OTTHUMT00000155677. Entre ells, els trànscrits OTTHUMT00000155674 i OTTHUMT00000155677 també es diferencien perquè el primer d'aquests trànscrits presenta un primer exó no trànscrit a la regió UTR5' molt més llarg que en el cas del segon trànscrit.
D'altra banda la major mida dels trànscrits OTTHUMT00000155675 i OTTHUMT00000155676 es deu a que el lloc d'inici de la traducció és diferent que en els anteriors trànscrits, ja que la traducció comença en el primer exó en aquests dos trànscrits mentre que en el cas dels trànscrits anteriors la traducció comença a partir del quart exó. A més, el trànscrit OTTHUMT00000155675 presenta un segon exó generat per splicing alternatiu no present en el trànscrit OTTHUMT00000155676.
La informació detallada sobre la posició, mida i nombre d'exons en cadescun dels diferents trànscrits es pot trobar seguint el següent enllaç.
2. ESTUDI DE L'HOMOLOGIA DEL GEN EN ALTRES ESPÈCIES
Per a realitzar l'estudi d'homologia del gen NFAT5 en altres espècies primerament s'han buscat gens ortòlegs mitjançant un Blast a partir de la proteïna humana. D'aquesta manera s'ha obtingut una llista de seqüències homòlogues a la nostra proteïna i s'ha fixat un nivell d'E-value a partir del qual l'homologia es veu bastant reduïda. Un altre factor que s'ha considerat és la llargada de la seqüència degut a que es busquen proteïnes que presentin al voltant de mil cinc-cents aminoàcids. Això ha estat fet així degut a que en regions més curtes es pot trobar major homologia, però el resultat no seria tan fiable. Un tercer criteri s'ha utilitzat per acceptar les seqüències com a homòlogues a NFAT5: la presència dels dominis característics de les proteïnes NFAT, i l'absència del domini d'unió a calcineurina propi dels NFAT1 a 4 (seqüència SPRIEIT en la regió N-terminal).
Tal i com es pot apreciar a la imatge 1 en la qual s'han alineat les diferents proteïnes de la família NFAT pel seu domini REL, els membres NFAT1 a 4 presenten en la seva regió N-terminal un lloc d'unió per a calcineurina, absent en la proteïna NFAT5. A més, NFAT5 presenta un exó C-terminal molt més gran que la resta de NFATs.
Imatge 1: Dominis de les diferents proteïnes NFAT
Espècie | Seqüència | Referència | Homologia | E value | |
Homo sapiens | MGGACS... | AF134870_1 | 100 % | 0 | |
Pan troglodytes | MGLTVP... | XP_001168930 | 99 % | 0 | |
Macaca mulatta | MVPDSW... | XP_001093880 | 99 % | 0 | |
Canis familiaris | MYSVFT... | XP_546854 | 94 % | 0 | |
Bos taurus | SVYDLL... | XP_883069 | 94 % | 0 | |
Mus musculus | MGGACS... | AAL50821 | 91 % | 0 | |
Rattus norvegicus | MSSVNG... | XP_226436 | 90 % | 0 | |
Monodelphis domestica | MRGSWF... | XP_001378219 | 86 % | 0 | |
Gallus gallus | MSCGLP... | XP_414226 | 79 % | 0 | |
Danio rerio | MPSDFI... | NP_956189 | 40 % | 7·10-169 | |
Tetraodon nigroviridis | APMPSD... | CAG03377 | 52 % | 7·10-137 | |
Strongylocentrotus purpuratus | MSMESQ... | XP_795539 | 52 % | 6·10-66 | |
Drosophila melanogaster | MWGQST... | ABN49446 | 51 % | 4·10-65 | |
Tribolium castaneum | MTLCTI... | XP_974734 | 45 % | 3·10-62 | |
Drosophila pseudoobscura | GMRMTM... | EAL31374 | 51 % | 3·10-60 | |
Apis mellifera | MLLKSR... | XP_391906 | 50 % | 7·10-59 | |
Takifugu rubripes | SSFTTE... | SINFRUP00000136248 | 56 % | 3,4·10-277 | |
Ciona intestinalis | MSGQNN... | GENSCAN00000101595 | 44 % | 3,1·10-122 | |
Ciona intestinalis 2 | MSGQNN... | GENEFINDER00000102003 | 44 % | 3,1·10-122 | |
Ciona savignyi | MFPEEN... | GENSCAN00000057054 | 26 % | 3,2·10-26 |
Es pot revisar l'alineament (per poder-lo veure en codi de colors cal tenir algun programa d'alineament instal·lat com per exemple el BioEdit o el MEGA) realitzat en les espècies seleccionades i comprovar com existeixen dues regions que mantenen una alta homologia al llarg de l'evolució fins i tot entre espècies allunyades filogenèticament. D'altra banda es pot observar un alt grau de conservació en mamífers i també en vertebrats, i a partir de la taula podem comprovar com el percentatge d'homologia va reduint-se en comparar espècies més allunyades.
L'anàlisi més detallat a nivell de conservació d'exons es realitza en un nombre més reduït d'espècies, marcades en vermell a la taula 2. Aquestes espècies s'han seleccionat com a representatives de diferents grups taxonòmics en els quals la proteïna NFAT5 hi sembla jugar un paper important i sembla estar conservada. Aquestes espècies són: Homo sapiens, Mus musculus, Gallus gallus, Ciona intestinalis, Ciona savignyi, Tetraodon nigrovidiris, Takifugu rubripes i Drosophila melanogaster.
En primer lloc a partir de l'alineament de les seqüències es realitzen els mateixos càlculs que en el punt anterior i es construeix l'arbre filogenètic amb el mètode de Neighbor-Joining a partir del percentatge de similaritat.
El pas següent consisteix en l'anàlisi de la conservació de les proteïnes i per fer això s'ha utilitzat el programa SeqVISTA per representar els diferents exons sobre les seqüències proteiques. La imatge 2 correspon al resultat obtingut:
Imatge 2: Alineament segons l'estructura exònica
Fent un anàlisi general buscant aquelles regions més conservades es pot veure un grup de sis exons marcats amb color taronja, verd, groc, violeta, negre i verd que presenten una alta homologia des d'Homo sapiens fins a Takifugu rubripes.
Un anàlisi més detallat espècie per espècie dóna lloc a les següents conclusions:
Homo sapiens: La proteïna presenta 11 exons. Un exó llarg a l'inici, 4 seguits i de llargada similar, uns altres 4 una mica més curts seguits del més llarg de tots del voltant de 830 aminoàcids i un exó final.
Mus musculus: La proteïna presenta 12 exons amb el mateix patró que la humana, però amb la petita diferència de presentar un exó afegit a l'inici.
Gallus gallus: La proteïna presenta 11 exons amb exactament el mateix patró que la proteïna humana.
Tetraodon nigrovidiris: La proteïna també presenta 11 exons però el patró és força diferent a l'humà. En primer lloc apareixen dos exons abans del primer d'humà i veiem com hi ha una variació en el cas dels 4 exons més curts, en aquest cas s'ha produït una fusió dels dos últims i finalment no presenta cap exó després del de 830 aminoàcids.
Takifugu rubripes: En la seqüència proteica corresponent a aquesta espècie podem veure que presenta certa similaritat a Tetraodon nigrovidiris, presenta únicament un exó enlloc de dos abans del primer exó de la proteïna humana però recupera l'exó posterior. I finalment, veiem que l'exó de 830 aminoàcids s'ha dividit generant dos exons on abans n'hi havia un.
Ciona intestinalis: En aquest cas s'observa una lleugera variació en els primers exons de la proteïna, Es manté una conservació a nivell dels exons centrals que són els més conservats entre totes les espècies i també es produeix un escurçament en l'exó llarg i se'n afegeixen un o dos al final de molt curts.
Ciona savignyi: En tractar-se d'espècies dins el mateix gènere veiem un alt grau d'homologia tot i que C. savignyi presenta un únic exò on C. intestinalis en presenta dos i veiem com al final de la seqüencia de C. savinyi hi ha més exons després del exó llarg.
Drosophila melanogaster: En aquest cas clarament i a primer cop d'ull s'observa una gran diferència respecte les altres seqüències. La proteïna de la mosca presenta un total de 14 exons i el patró exònic que presenta no s'assimila a cap dels altres.
En comparar les relacions evolutives entre les diferents espècies a partir de l'arbre filogenètic podem comprovar com aquestes relacions estan clarament relacionades amb la semblança nivell de l'estructura exònica.
3. EXPRESSIÓ DEL GEN
L'expressió del gen s'estudia a partir de dues aproximacions:
Diferents articles científics expliquen que la proteïna NFAT5 presenta alts nivells d'expressió en timus i en node limfàtic. A partir d'aquesta dada busquem aquesta informació en les bases de dades per veure si es compleix i obtenir resultats addicionals.
En primer lloc a partir de la base de dades Gepis tissue s'obté el gràfic corresponent a la imatge 3 en el qual es pot veure l'expressió en els diferents teixits en dues condicions diferents. En color blau s'observen els nivells d'expressió en mostres sanes de diversos teixits, mentre que en color groc es mostren els nivells corresponents a l'expressió en mostres tumorals. S'aprecia com el valor d'expressió més alt es troba en els nodes limfàtics. Més concretament podem veure com l'expressió és molt alta en mostres sanes, però no hi ha nivells d'expressió en les mostres tumorals. Altres teixits que presenten una alta expressió proteica són la glàndula pituitària, a la pell, la placenta, l'ull i el cor. En tots aquests teixits podem comprovar com l'expressió només es produeix en mostres sanes i no en mostres tumorals. Si ens fixem en aquells teixits on s'expressa més en mostres tumorals trobem la medul·la òssia, el cap i el coll, els ovaris, el còlon i la pròstata. Alguns d'ells com per exemple la medul·la òssia, l'esòfag, el cèrvix, el cartílag i l'os són els teixits que presenten expressió únicament en tumors.
Sorprèn veure que en aquesta base de dades l'absència d'expressió en el timus. Sembla ser que aquesta manca d'expressió es produeix per la falta d'experiments realitzats.
Imatge 3: Expressió en diferents teixits, en condicions normals i tumorals
En segon lloc, s'analitza l'expressió amb les dades de microarrays obtingudes a partir de la web del UCSC Genome Browser. En aquesta imatge es veuen les que s'han considerat més significatives, aquelles que presenten nivells d'expressió més alts i també aquelles de les quals també hem obtingut resultats a partir de l'altre mètode.
A la imatge 4, es pot veure com les dades de microarrays coincideixen força amb els anteriors: un recuadre vermell és indicatiu d'alts nivells d'expressió; un recuadre verd significa baixos nivells d'expressió. En aquesta imatge es pot veure un recuadre lleugerament vermell i un altre d'un vermell més intents en els experiments realitzats en timus, la qual cosa indica alts nivells d'expressió, que coincideixen amb els esperats a partir dels diferents articles científics. Posteriorment, el resultat corresponent al teixit cardíac mostra baix nivell d'expressió proteica, la qual cosa és contradictòria amb el resultat anterior. Pel que respecta a altres teixits on l'expressió era alta en el resultat anterior com per exemple el teixit cutani, placentari o en la pituitària no s'han trobat resultats en els microarrays i per tant no s'han pogut incloure a la imatge. Sorprenentment, es poden observar alts nivells d'expressió a la pròstata, tot i que en presència de tumor, aquest teixit tamé presenta alts nivells d'expressió tal i com es pot comprovar en l'anàlisi anterior.
Imatge 4: Resultat dels experiments de microarrays
4. ESTUDI DE LA REGIÓ PROMOTORA
Com s'ha vist anteriorment, la proteïna NFAT5 presenta cinc trànscrits diferents. Així mateix, a partir de les seqüències i de la informació detallada de l'estructura exònica dels diferents trànscrits s'ha pogut comprovar que hi ha tres llocs d'inici de transcripció diferents: OTTHUMT00000155673 per una banda, OTTHUMT00000155677 per una altra i finalment el conjunt format per OTTHUMT00000155674, OTTHUMT00000155675 i OTTHUMT0000015576. Per tant, l'estudi de la regió promotora s'ha hagut de fer tres cops, una per cada un dels diferents llocs d'inici de la transcripció..
Com es comenta en l'apartat de mètodes, l'estudi de la regió promotora es fa mitjançant dues aproximacions: a partir de l'aplicació disponible a internet PROMO i a partir d'un programa en Perl desenvolupat per nosaltres mateixos. La informació detallada sobre el programa i els fitxers de text que són necessaris per fer-los funcionar es poden trobar a l'apartat de mètodes.
A l'hora d'utilitzar el programa PROMO ha calgut definir uns paràmetres per tal d'obtenir un nombre acceptable de factors de transcripció que es poden unir a la seqüència promotora de la proteïna (comentat a l'apartat de mètodes). Amb tot, el nombre de factors de transcripció obtinguts continua essent molt elevat tot i aplicar els mencionats paràmetres. Aquí només es mostren els tres millors resultats, tot i que es pot accedir a la taula completa de resultats per a cada trànscrit seguint l'enllaç disponible a l'inici de la descripció dels resultats per a cada trànscrit.
Abans de passar a l'anàlisi dels resultats obtinguts mitjançant les dues aproximacions cal tenir en compte que ja d'entrada es pot preveure que no donaran lloc a resultats exactament iguals, ja que si bé és de suposar que el mètode en el que es basen és el mateix, els programes parteixen de matrius diferents, tant pel què es refereix a la llargada dels diferents factors de transcripció com pel què es refereix a la freqüència específica de cada nucleòtid en cada posició. Un exemple d'aquestes diferències es pot trobar en el següent enllaç. A més el nostre mètode només avalua la possibilitat que s'uneixin tretze factors de transcripció, mentre que PROMO analitza la possibilitat que actuïn tot el conjunt de factors de transcripció humans.
Finalment, tornar a dir que amb l'objectiu de fer més àgil la descripció dels resultats obtinguts mitjançant les dues aproximacions no s'afegeixen les taules completes de resultats a la mateixa pàgina, per bé que s'hi pot accedir fàcilment a partir dels enllaços que es proporcionen.
> Anàlisi de la regió promotora del trànscrit OTTHUMT00000155673Tal i com podem comprovar fent l'anàlisi de la seqüència promotora del primer trànscrit els factors de transcripció que es poden unir amb uns valors de dissimilaritat i de RE query més baixos (en l'anàlisi amb PROMO) i amb uns valors de Score més elevats i de p value més baixos (en l'anàlisi a partir del programa desenvolupat) són:
Taula 3: Resultats obtinguts amb PROMO Factor Dissimilaritat RE query Seqüència HNF-1B 0% 0,01 AGTTAATTA TCF-4E 0% 0,07 CTTTGCT Elk-1 0,13% 0,02 CTTCCTCCA
Taula 4: Resultats obtinguts mitjançant el programa Factor Score p value Seqüència AR 3,34 0,06 AACAGAA NF-kappaB1 3,72 0,06 GACTTCCC RXR-alpha 3,72 0,06 GAACCT Com podem comprovar els factors que donen màxima puntuació no donen resultats coincidents utilitzant les dues aproximacions. Això és normal pels motius exposats anteriorment. Tot i així, si es mira al detall els resultats obtinguts (a partir de la taula completa de resultats a la qual s'hi pot accedir a partir de l'enllaç) s'observa que els factors AP-1, c-myc, NF-AT1 i YY1 analitzats en el programa tenen el seu equivalent quan fem l'anàlisi amb el PROMO. S'observen diferències en la seqüència perquè les matrius són diferents.
> Anàlisi de la regió promotora del trànscrit OTTHUMT00000155674, OTTHUMT00000155675 i OTTHUMT000001557Veure regió promotora
Veure taula de resultatsTal i com podem comprovar fent l'anàlisi de la seqüència promotora del segon, tercer i quart trànscrits els factors de transcripció que es poden unir amb uns valors de dissimilaritat i de RE query més baixos (en l'anàlisi amb PROMO) i amb uns valors de Score més elevats i de p value més baixos (en l'anàlisi a partir del programa desenvolupat) són:
Taula 5: Resultats obtinguts amb PROMO Factor Dissimilaritat RE query Seqüència Elk-1 0% 0,05 GGCAGGAAG Sp1 0% 0 GGGGCGGGGC PR A 0,49% 0,04 AACTGTT
Taula 6: Resultats obtinguts mitjançant el programa Factor Score p value Seqüència AR 3,47 0,06 AACAGAA NF-AT1 3,97 0,02 GAAAAAA PU-1 3,34 0,17 AGGAAGC En aquest segon anàlisi ens tornem a trobar amb la situació que no hi ha cap dels tres millors resultats que sigui coincident al comparar les dues aproximacions. Amb tot, si comparem tots els resultats obtinguts (veure taula), s'observa que tant per al factor NF-AT1 com per al factor YY1 (no mostrat en la taula anterior perquè no era un dels tres millors resultats) els resultats són aproximadament coincidents utilitzant les dues aproximacions.
> Anàlisi de la regió promotora del trànscrit OTTHUMT00000155677Veure regió promotora
Veure taula de resultatsTal i com podem comprovar fent l'anàlisi de la seqüència promotora de l'últim trànscrit els factors de transcripció que es poden unir amb uns valors de dissimilaritat i de RE query més baixos (en l'anàlisi amb PROMO) i amb uns valors de Score més elevats i de p value més baixos (en l'anàlisi a partir del programa desenvolupat) són:
Taula 7: Resultats obtinguts amb PROMO Factor Dissimilaritat RE query Seqüència Elk-1 0% 0,05 GGCAGGAAG Sp1 0% 0,2 GGGGCGGGGC c Jun 0% 0,03 TGAGTCA
Taula 8: Resultats obtinguts mitjançant el programa Factor Score p value Seqüència AP-1 4,39 0,03 GAGTCAG AR 3,22 0,11 AACAGCA PU-1 3,48 0,13 AGGAAGC En aquest últim anàlisi tornem a veure com els resultats entre els dos mètodes no són coincidents pels factors amb millor puntuació però si observem la taula al detall (clicar aquí) tornem a veure com els resultats pels factors de transcripció AP-1, NF-kappaB1, RXR-alpha i YY1 sí que coincideixen.
Avaluant els resultats obtinguts a partir de l'estudi de la regió promotora dels tres tipus de trànscrits diferents, es pob observar com els resultats són força similars entre ells, la qual cosa és normal perquè si bé la seqüència no és totalment igual entre ells, sí és cert que bona part de la seqüència és igual, la qual cosa fa que donin uns resultats similars.
5. FUNCIÓ DE LA PROTEÏNA
Localització o Acció | Ontologia | Referència |
---|---|---|
Nucli | Component cel·lular | PMID: 10051678 |
Factor de transcripció per a la RNA-Pol II | Funció molecular |
PMID: 10377394 |
Unió proteica | Funció molecular | PMID: 15790681 |
Factor de Transcripció | Funció molecular | PMID: 10051678 | Excreció (Estrés osmòtic) | Funció molecular | PMID: 10051678 |
Transducció de senyals | Procés biològic | PMID: 10377394 |
Promotor de la transcripció per a la RNA-Pol II | Procés biològic | PMID: 10051678 |
En aquest apartat es realitza un estudi de la funció proteica a partir dels resultats de la base de dades Gene Onthology. En primer lloc hem de comentar que la proteïna NFAT5 es troba constitutivament expressada a nivell nuclear la qual no es modifica tot i que es produeixi l'activació de la cèl·lula.
NFAT5 conté un domini d'homologia Rel semblant als altres NFAT1-4 i conserva la regió d'unió al DNA que presenten els altres NFAT, de manera que regula els mateixos gens que els altres NFAT. La diferència principal recau en el fet de que NFAT5 no presenta dominis d'unió a calcineurina i per tant es creu que participa en una via de senyalització diferent1.
El domini Rel és el que permet la unió a ADN pel solc major, a partir de dos subdominis formats per barrils β semblants a les immunoglobulines, els quals permeten la interacció. A més, aquest domini permet la unió a altres proteïnes que regulen la funció de NFAT52.
Pel fet de trobar-se dins el nucli i presentar el domini Rel que permet la unió a ADN, NFAT5 actua com a Factor de Transcripció i una de les seves dianes és la RNA Polimerasa II.
La transcripció de NFAT5 s'incrementa com a resposta a l'estrès osmòtic i activa la transcripció de gens per obtenir proteïnes que catalitzin l'acumulació d'osmolits compatibles, a més d'activar un cotransportador per a disminuir la concentració osmolar3.
MÈTODES
A continuació hi ha una descripció dels diferents mètodes utilitzats per a la realització del treball.
Per a la caracterització de l'estructura genòmica la base de dades que s'utilitza principalment és Ensembl , per bé que els resultats són força coincidents amb la informació que podem trobar a altres bases de dades com poden ser UCSC o GenBank. Hem escollit la base de dades d'Ensembl perquè sembla ser que per aquesta proteïna la informació és més completa que la que podem trobar en les altres bases de dades. A partir d'Ensembl s'ha obtingut informació sobre el nombre de trànscrits, els exons i introns que formen la proteïna en els diferents trànscrits, etc.
Per a l'estudi de l'homologia amb altres espècies, en primer lloc ha calgut obtenir les seqüències proteiques per a poder analitzar-les. Per a fer-ho s'ha realitzat un Blast proteïna - proteïna i també un Blast proteïna - ADN amb la nostra seqüència proteica a partir del Blast de NCBI i de l'Ensembl. Les seqüències s'han escollit a partir dels criteris anteriorment citats, com el valor d'E value, la llargada de la seqüència que presenta homologia i la presència i/o absència dels dominis característics.
Un cop seleccionades les espècies amb les quals es realitza l'estudi més detallat, se n'ha obtingut les seqüències a partir d'Ensembl, per a caracteritzar-ne l'estructura exònica. Hem procedit a realitzar un alineament amb ClustalW de les 8 seqüències i posteriorment s'ha analitzat l'alineament obtingut amb JalView i BioEdit, per obtenir els diferents resultats desitjats. Finalment, i a partir de l'alineament, s'ha utilitzat el programa SeqVISTA per a marcar les regions exòniques a cada seqüència i d'aquesta manera poder comparar-ho.
L'estudi de l'expressió del gen s'ha realitzat a partir de les dades obtingudes procedents de diverses bases de dades especialitzades. En primer lloc el gràfic d'expressió s'ha obtingut de la base de dades Gepis tissue i les dades de microarrays s'han obtingut directament de la base de dades UCSC.
Per a la caracterització de la regió promotora del gen en primer lloc ha estat necessari obtenir les seqüències promtores de cadescun dels trànscrits que tenen un lloc diferent d'inici de la transcripció. Això ha suposat obtenir 3 seqüències promotores diferents, ja que de cinc trànscrits obtinguts, tres tenen el mateix inici de transcripció entre ells. Un cop obtingudes les seqüències s'ha procedit a analitzar la seqüència promotora per mitjà de dos aproximacions: en primer lloc a partir de l'eina accessible a través d'internet PROMO, i en segon lloc a través d'un programa en Perl que hem desenvolupat nosaltres mateixos. Per a fer l'anàlisi de la regió promotora s'han analitzat els 1000 nucleòtids abans del lloc d'inici de la transcripció i els 100 nucleòtids després de l'inici de la mateixa.
Per veure el programa que s'ha desenvolupat per a l'estudi de la regió promotora clica aquí. Per descarragar-lo en format Perl, clica aquí. Clicar aquí per veure les matrius utilitzades. Veure regió promotora trànscrit 1; 2, 3 o 4; 5.
A l'hora d'utilitzar el programa PROMO ha calgut definir uns paràmetres per tal d'obtenir un nombre òptim de factors de transcripció que eventualment es poden unir a la seqüència promotora de la proteïna. Els paràmetres que hem definit són els següents:
1) Percentatge de dissimilaritat < 4%
2) RE query < 0,09
Finalment, per a l'estudi de les funcions del gen s'ha utilitzat la informació extreta de la base de dades del UCSC dins l'apartat de Gene Ontology que permet veure les associacions de la nostra proteïna amb diferents funcions moleculars, processos biológics i la localització cel·lular. A més a més s'ha realitzat una cerca dels diferents dominis presents a la proteïna a les pàgines web d'InterPro i Pfam per a veure'n la seva la funció específica. Per a dur a terme la realització d'aquest punt també s'han tingut en compte els diferents articles científics trobats al PubMed o proporcionats per la unitat d'Immunologia.
CONCLUSIONS
Mitjançant aquest treball s'ha fet una aproximació a l'estudi del gen que codifica per la proteïna NFAT5 i la pròpia proteïna. S'han analitzat un total de cinc trànscrits de l'ordre de 14Kb, diferents entre ells per fenòmens de splicing alternatiu o perquè el lloc d'inici de la transcripció és diferent. En l'espècie humana, el gen es troba localitzat al cromosoma 16.
Pel què fa a l'homologia respecte altres espècies, s'ha vist com la proteïna NFAT5 està for&ccefil;a conservada entre les diferents espècies de mamífers. Aquesta conservació no és tan forta en altres grups taxonòmics filogenèticament més allunyats com els urocordats (Ciona sp.), per bé que en aquestes espècies s'han trobat seqüències que presenten un patró de dominis força similars a NFAT5 humana.
L'expressió de la proteïna es produeix principalment al timus i nodes limfàtics. També hi ha altres teixits en els quals es troba expressió de NFAT5.
L'estudi de la regió promotora ha servit en primer lloc per aprendre a desenvolupar un programa relativament complex per a la cerca de llocs d'unió per a factors de transcripció en la seqüència promotora del gen. D'altra banda, entrant més en els mateixos resultats, s'ha vist que hi ha molts llocs d'unió diferents pels factors de transcripció estudiats, i això sembla indicar que caldria fer una cerca més acurada per determinar amb exactitud quins factors de transcripció són importants en la regulació de la transcripció de la proteïna. Una possible manera de fer-ho podria ser comparant-ho amb les regions promotores de la proteïna NFAT5 en altres espècies, per tal d'observar si hi ha ha regions on s'hi poden unir factors de transcripció que estiguin conservades al llarg de l'evolució, la qual cosa podria suggerir que és un lloc on possiblement hi ha un factor de transcripció que està jugant un paper important.
Finalment l'estudi de la funció de NFAT5 ha permès observar-ne la seva importància en les vies de senyalització en actuar com a Factor de Transcripció en condicions d'estrés osmòtic. La seva funció no està pel moment totalment caracteritzada.
REFERÈNCIES
1. Lopez-Rodriguez C, Aramburu J, Rakeman AS, Rao A. NFAT5, a constitutively nuclear NFAT protein that does not cooperate with Fos and Jun.
Proc Natl Acad Sci U S A. 1999 Jun 22;96(13):7214-9.
2. Miyakawa H, Woo SK, Dahl SC, Handler JS, Kwon HM. Tonicity-responsive enhancer binding protein, a rel-like protein that stimulates transcription in response to hypertonicity.Proc Natl Acad Sci U S A. 1999 Mar 2;96(5):2538-42.
3. Trama J, Go WY, Ho SN. The osmoprotective function of the NFAT5 transcription factor in T cell development and activation.J Immunol. 2002 Nov 15;169(10):5477-88.
4. Maouyo D, Kim JY, Lee SD, Wu Y, Woo SK, Kwon HM. Mouse TonEBP-NFAT5: expression in early development and alternative splicing. Am J Physiol Renal Physiol. 2002 May;282(5):F802-9.
AGRAÏMENTS
Voldríem expressar el nostre sincer agraïment a en José Aramburu, en Charles Chapple, en Roderig Guigó, la Cristina López-Rodríguez i a en Hagen Ulrich Tilgner per l'ajuda que ens han proporcionat a l'hora de realitzar aquest treball.