Estudi de les propietats codificants dels exons alternatius

Introducció

L' splicing alternatiu (SA) és un mecanisme pel qual el pre-mRNA pot donar lloc a diferents combinacions d'exons, produïnt diferents mRNAs madurs. Així, permet que es tradueixin diferents proteïnes del mateix gen i en modula la funcionalitat.

Estudis computacionals realitzats estimen que un 40-60% dels gens humans pateixen SA.
L' splicing alternatiu és regulat per patrons espacio-temporals específics durant el desenvolupament, i juga un paper important en la regulació gènica, per exemple en la determinació del sexe en Drosophila, la resposta immunològica en humans o en processos específics d'estadis del desenvolupament.

Hi ha cinc tipus principals de "splicing" alternatiu:

  1. Inclusió/exclusió d'exons ("exon skipping")


  2. Retenció d'introns


  3. Lloc de "splicing" 3' alternatiu


  4. Lloc de "splicing" 5' alternatiu


  5. Exons mútuament excluients
    (no mostrat a la figura)

Tipus de splicing alternatiu

Sembla ser que la selecció natural esbiaixa la utilització de codons per millorar la síntesi proteïca en E.coli, S.Cerevisiae,C.elegans i A.thaliana. Aquestes espècies mostren correlacions positives entre el biaix de codons i els nivells d'expressió gènica. A més, els codons utilitzats preferentment, tendeixen a ser reconeguts per tRNAs abundants en E.Coli, bacillus subilis, llevadures, D.melanogaster i C.elegans. Aquests patrons suggereixen un paper de la selecció natural sobre els llocs sinònims i una diferència de fitness entre els codons sinònims (selecció traduccional)(1)

Així, podem relacionar el biaix de codons amb els nivells d'expressió gènica en les espècies esmentades.

En mamífers, la selecció traduccional als llocs sinònims no està massa clara. Es creu que les diferències en la utilització de codons sinònims en relació als nivells d'expressió són molt petites. Els estudis en mamíers es compliquen per l'heterogenicitat en la composició de bases dels genomes dels mamífers, ja que els cromosomes d'aquests semblen ser mosaïcs de llargs segments de DNA anomenats isocores (isochores) que tenen un contingut en GC distintiu. Així, per detectar la selecció sobre els llocs sinònims és important eliminar l'efecte de les isocores (1).

S'han proposat algunes evidències de selecció traduccional en mamífers, però estan poc fonamentades.

Amb aquest treball es pretén aprofundir una mica més sobre el biaix de codons sinònims en mamífers en relació amb el grau d'expressió, mitjançant un anàlisi computacional del biaix de codons en exons constitutius i alternatius de seqüències de mRNA de ratolí.

En els gens que pateixen 'splicing alternatiu', els codons dels exons que s'expressen constitutivament es tradueixen amb més freqüència que els dels exons alternatius. Seria d'esperar que la selecció traduccional actués amb més força sobre el biaix de codons i reduïs la divergència silent als exons constitutius que als alternatius. Així, els gens que codifiquen per proteïnes que pateixen 'splicing' alternatiu són una bona oportunitat per examinar exons que difereixen en els nivells d'expressió però que es troben a la mateixa isocora (pocs gens creuen els límits d'una isocora).






Antecedents


El biaix de codons és un tema emergent en genòmica evolutiva des de fa uns quants anys. Es disposa de multitud d'articles publicats relacionats amb aquest tema (a l'apartat Referències i Agraïments es mostren algunes revisions publicades recentment (2)(3)(4)(5)(6))

De totes maneres, en revisar la literatura científica, només s'ha trobat un treball previ del Institute of Molecular Evolutionary Genetics (Universitat de Pensilvània) que es plantegi la qüestió del biaix de codons diferencial en els exons alternatius i constitutius (1).

L'estudi analitza seqüències de gens que pateixen SA en humans i en Drosophila melanotgaster, amb l'objectiu d'estudiar la selecció traduccional. Els resultats mostren que els codons acabats en CG són més abundants en els exons constitutius que en els alternatius tant en Drosophila com en humans.






Objectiu

L'objectiu d'aquest projecte és estudiar l'ús de codons en els esdeveniments d'exclusió d'exons, és a dir, comparar la distribució de codons en els exons alternatius respecte als exons constitutius.
En concret, l'estudi es realitzarà a partir d'un arxiu de seqüències de mRNAs de ratolí que pateixen SA.

En el següent enllaç podeu observar l'arxiu:
Seqüències d'exons de ratolí

Per tal d'obtenir l'arxiu només cal que cliqueu sobre el link amb el botó dret i seleccioneu "Save link as". Assegureu-vos de guardar tots els arxius a la mateixa carpeta (seria convenient que creessiu una carpeta només per l'ús d'aquest treball.

Si ho preferiu, podeu descarregar-vos el fitxer comprimit: mouse.skipping.seqs.gz

Per tal de descomprimir-lo useu la comanda gzip -d.

I aquí teniu explicat com llegir el fitxer: Instruccions per a llegir el fitxer

Per a realitzar l'estudi se seguiran els següents passos:

  1. S'escriurà un programa en llenguatge Perl que llegeixi el fitxer de seqüències i:

    • separi les parts codificants de les seqüències dels exons, tenint en compte les fases

    • separi els exons constitutius i alternatius, i els talli en els seus codons. Segons les fases, hi ha alguns codons compartits pels exons alternatius i constitutius, als quals anomenarem despenjats.

    • calculi per a cada codó la freqüència absoluta d'aparició als exons alternatius i constitutius, així com el nombre de vegades que queda despenjat

    • calculi la freqüència relativa d'ús dels codons per a cada aminoàcid.


  2. Es tractaran els resultats amb el paquet estadístic R per a calcular la significació de la diferència de freqüència en l'ús de codons en els exons alternatius i despenjats respecte els constitutius (amb el test de la chi-quadrat)

  3. S'extreuran conclusions a partir dels resultats obtinguts






Material i mètodes

S'ha escrit un programa en llenguatge Perl (EXAL) i s'ha executat sobre el fitxer de seqüències ("mouse.skipping.seqs.txt") cridant-lo des del Shell amb la següent comanda:

$ exal.pl mouse.skipping.seqs.tx

Link amb el programa EXAL:
EXAL

Explicació del programa:

La primera línia de programa assigna el nom de l'arxiu.txt a una variable i, posteriorment l'obre pel seu anàlisi.

L'estudi requereix un anàlisi línia a línia del fitxer de text. Així, per a cada línia s'haurà de fer el tractament que calgui i anar emmagatzemant les dades a mesura que es vagin llegint més línies..

S'assigna cada columna de la línia a una variable mitjançant una expressió regular que encaixa tot el que són caràcters separats per tabulacions. Això ens permetrà tractar les dades amb més comoditat. Algunes dades de de les què assignem a variables no s'utilitzaran posteriorment, però s'ha considerat una forma de visualitzar totes les dades que conté el fitxer.

A continuació es troba la base del nostre programa: comptar els codons que apareixen a cadascun dels tipus d'exons. Se separaran els codons en tres grups: els dels exons constitutius (exons 1 i 3), els dels exons alternatius (exó2) i els codons que queden partits entre dos exons degut a la fase de l'exó següent (despenjats).

En un primer pas s'agafa la part codificant de cada seqüència exònica, la qual cosa s'aconsegueix mitjançant la funció substr:

$exoX = substr ($seqX,$startreal,$endX - $startX + 1);

Per a la funció "substr" es defineixen els següents paràmetres:



Sobre la seqüència codificant s'agrupen els nucleòtids de 3 en 3 per a obtenir els codons. Aquests s'assignen a un vector per tal de poder-lo recòrrer posteriorment i tractar cada triplet individualment. S'aconsegueix mitjançant una expressió regular:

@triplets = ($exoX =~ m/.../g);

A continuació es compta el nombre de vegades que apareixen els codons mitjançant la funció hash. El hash és una estructura de dades, similar a un vector, però que enlloc d'indexar els valors per la posició, els indexa per un nom (key).

Amb un comptador es recorren les posicions del vector de triplets (@triplets). D'acord amb el funcionament d'un hash, cada triplet nou és col.locat com a una clau (key) i es compta per a cada clau el nombre de vegades que apareix (value).
Aquest tractament es realitza per als tres grups de triplets, col.locant cadascun en un hash separat. Així, obtindrem tres hashs, que han estat declarats anteriorment (%taula13 pels codons constitutius; %taula2 pels codons alternatius; %despenjats pels codons despenjats).

Per poder treballar posteriorment, les freqüències absolutes dels triplets són redirigides a un fitxer de text (freqabsolutes.txt)

Amb l'objectiu d'obtenir unes dades més fàcils d'interpretar, es calcula la freqüència de cada codó respecte els seus codons sinònims (que codifiquen pel mateix aminoàcid). Es crea un nou hash (%amincodo) on les keys són els aminoàcids, i els values corresponents són vectors que contenen els codons sinònims que codifiquen per aquest. Es recorren totes les posicions del hash %amincodo, calculant la suma de les freqüències absolutes dels codons corresponents a cada aminoàcid ($total), recuperant els valors dels hashs corresponents. Es calcula a continuació el valor de la divisió de la freqüència absoluta de cada codó pel $total dels seus sinònims, en tant per cent. Gràcies a la funció sprintf aconseguim que només imprimeixi 2 decimals i el símbol %, per una millor visualització. Aquesta informació es va redirigint a un fitxer de text (freqrelatives.txt).

Aquest programa, així, genera dos fitxers, amb les freqüències relatives (freqrelatives.txt) i absolutes (freqabsolutes.txt) d'ús dels codons.
El fitxer de freqüències absolutes conté una taula que es llegeix de la següent forma: la primera columna conté el nom de l'aminoàcid i la segona la del codó, les tres columnes restants contenen la freqüència absoluta dels codons constitutius, alternatius i despenjats respectivament.

Link taula de freqüències absolutes: Taula freqüències absolutes

El fitxer de freqüències relatives es llegeix de la mateixa forma, però enlloc de contenir les freqüències absolutes conté les relatives (respecte la resta de codons que codifiquen pel mateix aminoàcid, en tant per cent)

Link taula de freqüències relatives: Taula freqüències relatives

A continuació s'han analitzat aquests resultats amb el paquet estadístic R. S'ha aplicat el test de la chi-quadrat per a cada aminoàcid, comparant la freqüència absoluta d'ús dels codons alternatius versus els constitutius i dels alternatius versus els despenjats.
Per tal d'executar l'R s'ha importat i obert des del Shell amb les següents comandes:

$ export PATH=$PATH:/disc8/soft/R/bin

$ R

Les comandes utilitzades per a l'anàlisi estadístic estan contingudes al fitxer >instruccions.R.

Aquí tens un link amb aquest fitxer: Comandes R

Per a executar aquestes comandes s'ha cridat aquest fitxer des del R de la següent forma:

> source("instruccions.R")

Aquest procediment genera dues matrius de resultats (m i m2) que contenen els valors de l'estadístic chi-quadrat i el valor P (p-value) associat per a cada aminoàcid (la probabilitat de què la diferència obtinguda sigui deguda a l'atzar). S'ha realitzat primer l'anàlisi pels codons constitutius i alternatius (m) i després pels constitutius i els despenjats (m2).La significació dels resultats s'ha establert per a un nivell de confiança del 95%.
Aquests resultats s'han copiat a un fitxer de text (resultats_chi2.txt) que es mostra a continuació:

Link resultats anàlisi chi-quadrat: Resultats test chi-quadrat






Resultats i conclusions

En les freqüències relatives d'ús de codons entre els exons constitutius i alternatius, representades gràficament a la Figura 1 , s'observen lleugeres variacions, però es manté sempre l'ordre de prioritat d'utilització dels codons sinònims.




Figura 1. Freqüències relatives constitutius-alternatius
(Clica sobre la figura per veure-la més gran)


Les diferències de freqüència entre els codons constitutius i els despenjats (Figura 2) són més marcades. En aquest cas no sempre es manté l'ordre de prioritat en l'ús dels codons sinònims. Cal tenir en compte que estem comparant dos mostres de mida molt diferent. Aquesta comparació no té un sentit biològic des del punt de vista dels objectius del treball. S'ha considerat interessant representar les dades en una gràfica però no es tindran en compte per a les conclusions del treball.




Figura 2. Freqüències relatives constitutius-despenjats.
(Clica sobre la figura per veure-la més gran)


La significació de les diferències observades en les gràfiques anteriors es recull en la taula de la Figura 3, construïda a partir dels resultats del test de la chi-quadrat. La significació s'ha establert per a P < 0,05. Les mateixes dades es recullen en forma de diagrama de sectors a la Figura 4. S'han trobat diferències significatives en la utilització dels codons en 11 dels 18 aminoàcids amb codons sinònims (Ala, Arg, Asp, Cys, Ile, Leu, Phe, Pro, Ser, Thr, Val) i en els codons de STOP. Els aminoàcids Asn, Gln, Glu, Gly, His, Lys, Tyr, en canvi, no mostren diferències significatives. Els aminoàcids Met i Trp no tenen codons sinònims i, per tant, no poden mostrar diferències. S'ha observat una predominància d'aminoàcids hidrofílics en els que no mostren diferències (són tots hidrofílics excepte Gly i Tyr).



Figura 3. Resultats chi-quadrat: taula de significació de les diferències observades.
(Clica sobre la figura per veure-la més gran)


Figura 4. Resultats chi-quadrat: diagrama de sectors.
(Clica sobre la figura per veure-la més gran)









Discussió


Els nostres resultats mostren diferències en la utilització de codons dels exons alternatius i constitutius, recolzant un possible efecte de la selecció traduccional en ratolí i donant un pas endavant en l'estudi d'aquest fenòmen en mamífers.

En la comparació dels codons constitutius i els despenjats, les diferències observades no es poden relacionar amb la selecció traduccional ja que els codons despenjats es troben partits entre els exons constitutius i els alternatius i, per tant, no tenen un nivell d'expressió determinat.

Creiem que seria convenient complementar els nostres resultats amb altres dades experimentals. En primer lloc, tot i que en principi un gen no es parteix entre diferents isocores, seria interessant corregir els resultats pel contingut en CG de les regions estudiades. Una altra línia per complementar l'anàlisi seria la comparació amb els nivells dels diferents tRNAs en teixits de ratolí quan, en un futur, es pugui disposar d'aquestes mesures.

Caldria considerar també altres factors que poden afectar la composició de bases en regions codificants: