Prédiction des structure secondaire du RNA

Ana Igea Fernández, Iris Uribesalgo Micás

Création d'un modèle
Exécution du programme "Scan_for_matches"
Traduction des résultats en lengage FASTA
BLAST contre génome humain
Résultat

Notre travail avait pour objectif de trouver des structures correspondant à IREs qui n'auraient pas étées décrites à ce jour. Pour ce, nous suivons la procédure suivante :

1.Création d'un modèle

Les données à partir desquelles nous partîmes étaient des 60770 cDNAs de souris, à l'intérieur desquels certains étaient décris comme des codificateurs, et d'autres comme non codificateurs. Tous étaient théoriquement clonés en forward (référence article).

Pour commencer nos travaux, nous nécessitions créer dans un premier temps un modèle qui nous définisse les structures des IREs que nous étions intéressés de trouver. A partir de ces modèles d'IREs réalisées l'année passée et en nous basant aussi sur une bibliographie d'articles [1,2,3,4,5,6,7,8] , nous avons décider d'utiliser deux modèles de prédiction différents:

Modèle strict : r1={au,ua,gc,cg,gu,ug} (p1=2...8 c p2=5...5 cagwgh r1~p2 r1~p1 | p3=2...8 nnc p4=5...5 cagwgh r1~p4 n r1~p3).
Avec celui-ci décrit en bibliographie [1] , comme le montre notre shéma, nous espérons trouver cinq appariements exacts dans la "stem" supérieur et deux à huit appariements dans la "stem" inférieure. De plus, nous acceptons les appariements A-T et G-C ainsi que les G-T étant donné quil a été observé que, même si ces derniers ne soient pas des appariements classiques, ils se retrouvent dans un grands nombre de structures secondaires.
Modèle laxiste : r1={au,ua,gc,cg,gu,ug} (p1=2...8 c p2=4...5 cagwgh r1~p2 r1~p1 | p3=2...8 nnc p4=4...5 cagwgh r1~p4 n r1~p3).
Ce modàle, que nous avons définis à partir de données écrites dans la bibliographie, difère de la précédente dans le fait que quatre ou cinq appariements sont permis dans la "steam" supérieure.

Nous avons décidé d'utiliser dans un premier temps deux modèles étant donné que, en fonction du type de protéïne, les modèles d'IREs diffèrent considérablement (modèles) . Par conséquent, nous avons pensé que, avec un modèle plus laxiste, nous pourrions inclure les IREs d'une grande majorit´ de protéïnes (si ce n'est toutes). Pour terminer la définition la structure de ce modèle, nous nous basons dans les données suivantes trouvées dans la bibliographie:

Les IREs ont généralement une longitude de 26 à 30 nucléotides même si celle-ci est variable.
La "stem" supérieure a normalment cinq appariements sauf exceptions (c'est le cas notament de l'IRE de eALAS qui n'en a que quatre)..
La "stem" inférieure a une longitude variable (normalement de deux à huit appariements).

En utilisant deux modèles, nous nous sommes présenté la possibilité que le nouveau mod¡èle plus laxiste fasse augmenter le nombre de résultats obtenus et, par conséquent, le nombre de faux positifs. Nous devions juger, au vu des premiers résultats de structures IRE possibles, de la pertinence du modèle laxiste i.e. s'il nous est utile ou si, au contraire, il inclus trop de structures non spécifiques.

Revenu

2. Exécution du programme "Scan_for_matches"

Nous avons utilisé le programme Scan_for_matches pour balayer mes modèle sur les cDNAs de de la séquence.

Le premier dilemme était de savoir si nous devions balayer les 60770 cDNAs de souris ou simplement sur les cDNAs décrits comme codificateurs et, d'autres par si nous deviosn effectuer le balayage en "forward" ou en "reverse".

Dans un premier temps, nous avons décidé d'utiliser les 60770 cDNAs de souris pour être sûrs de ne trouver aucun IRE dans des régions non codifiées et vérifer la pertinence des résultats sur les régions que l'article de référence qualifiait comme non codifiées. Dans un deuxième temps, nous avons de balayer en forward ainsi quen reverse chacun des patrons et inscrire les résultats dans des archives distinctes pour une analyse ultérieure (IRESpatroreverse.txt, IRESpatroforward.txt, IRESpatrolaxereverse.txt, IRESpatrolaxeforward.txt):

Exécution du programme scan_for_matches [1]
Comptabilisation des "hits" apparaissant pour chaque cas [2]
Comptabilisation des séquences de cDNAs appartenant à ces hits [3]

Devant ces résultats, nous avons décidé de continuer de travailler sur les séquences obtenues à partir d'un modèle laxiste étant donné quil inclut un plus gran nombre de structures IREs possibles. La différence avec les séquences obtenues avec un modèle strict n'est pas tr&eagrave;s significative. Par contre, nous devrons être assez stricts lors de la validation thermodynamique (link al trabajo), et lorsque nous effectuerons la validation pas homologie avec le génome humain (Blast)

La décision suivante que nous avons pris a été de travailler à partir des séquences obtenues avec les résultats du modèle laxiste, uniquement avec les données obtenues en forward. Cette décision prise avec l'appui des résultats du groupe chargé de la prédiction de gènes (link al trabajo), ledit groupe a exécuté le programme "geneid" avec les 60770 cDNAs en déduisant que, même q'il y avait quelques cDNAs en reverse, ceux-ci étaient peu nombreux et la majorité d'entre eux n'avaient pas une bonne ponctuation. En nous basant avec ces données, et même si quelques cDNA en reverse avaient une bonne ponctuation, nous avons cru qu'il était plus pertinent e travailler úniquement en forward même si nous pouvions perdre quelques informations du fait de la difficulté ajoutée qu'est de travailler en reverse face à la faible possibilité de trouver quelques structure IRE dans ces cDNAs.

Revenu

3.Traduction des résultats en lengage FASTA

Une fois tous les points cités précédemment mis au clair, nous avons travaillé avec le fichier des séquences obtenues en forward à partir du modèle laxiste qui contien une prédiction de 601 IREs issus de 594 cDNAs différents. A ce moment précis, il a été nécessaire de transformer le fichier que nous avions en langage fold en lengage fasta afin qu'il puisse être validé avec d'autres problèmes qui nécessitent ledit langage. Pour ce faire, nous avons créé un programme en PERL RNAfold_fasta.pl, celui-ci a converti nos séquences en éliminant les espaces entre nucléotides et en changeant les Ts en Us (IRESpatrolaxeforward.fasta).

Revenu

4. BLAST contre génome humain

Pour valider nos résultats, nous avons réalisé un Blast des 601 séquences correspondant à de possibles IREs contre le génome humain étant donné que la majorité des IREs trouvés dans la souris devraient figurer dans le le génome humain (99% du génome est conservé et les IREs, par ailleurs, survivent au splicing et ont une fonction concréte).

"Blast" es une ressource que nous pouvons trouver sur el site ou que nous pouvons directement obtenir depuis UNIX. Nous avons décidé d'utiliser l'application depuis UNIX, pour cela, nous avons utilisé uen commande spécifique en plus de créer une variable pour nous économiser un bucle avec la finalité que la ressource Blast parcoure tous els cromosomes [4].

Avant d'utiliser Blast nous devoions décider:

L'Expected value que nous voudrions comme limite : Par défaut son valeur est de 10, un nméro trop élevé pensant que les 601 séquences de possibles IREs avec lesquelles nous courrir le Blast son trés courtes et on peut trouver un faux positive. Il exist aussi une otre chose que nous ne voulions pas, des valeurs trop basses (p.e. 0.001) parce que il peut provoquer la perte de possibles séquences IRE. Ce pour ça que nous avons utilisé le Blast avec un Expected value 0.1.
La base de donées avec laquelle on peut travailler (génome humain entier contre génome humain entier masquée): Le génome humain entier masqué ce la même chose que le génome humaine entier mais avec las regions répé:tés masqués. En utilisant le masqué nous nous éviterions des matches dans régions que nous savons dejà que sont repetitives et óu on ne peut pas localiser des IREs. Par contre, pour constaiter que en utilisant cette génome nous ne perdions pas de la information, nous avons fait une petit test prénent une part de ces 601 IREs et nous les avons mis dans le programme "RepeatMasker" qui peut masquér des régions repetitves. Si on regarde les résultats obtenus c'est une évidence que le programme ne masque pas ces régions,ça veut dir que ces régions n'aient aucune homologie avec des sequénces repetitives connues. Ainsi donc, si nous utilisons le génome masqu&eaccute; on peut assurer que nous eviterons les faux positives et,aussi, que nous ne perderons pas aucun "hit" parce que il n'y a pas homologies en les régions masqués de les sequénces utilisées.

Une foit nous avions les donées assurées nous avons fait courrir le Blast de les 601 séquences de possibles IREs sur la base de donées dû génome humaine masqué, mais il n'etâit possible le finaliser parce que l'ordinateur persy n'avait la puissance nécessaire.Ce pour ça que nous avons decidé courrir les Blast avec autre ordinateur pour utiliser cette programme qui s'appele Blastmachine est à plus puissance avec base de donnés grands comme la nôtre [5].

Ce qui paraissait une solution n'avait resultée.Le Blastmachine avit aussi des problemes. La prochaine solution êtait faire le Blast cromosome par cromosome avec une valeur de 0.1 d'Expected value [6], mais nous avons le même problème de puissance de l'ordinateur.

La dernière solution êtait réduir la base de donnés en utilisant les ESTs humaines et non tout le génome masqué. On peut fait ça parce que les IREs sont transcrits et peuvent résistir a le "splicing".Aussi nous éliminons des intrones et régions intergenetiques qui peuvent donner une grand nombre des faux possitives. Cette fois le Blast fonctionait mais les (résultats) obtenus etaient peu significatives,doit à la grandeur de la base de donées. Une sólution qui nous aparait alors etait la possibilité de courrir un patron plus laxiste sur une base de donnés de cDNAs humaines crée avec une base de ESTs humaines disponibles dans la web pour pouvoir utiliser plus tard des séquences que nous obtendrions comme base de donées pour faire un nouveau Blast avec des 601 séquences obtenus avec le même patron de les 60770 cDNAs de souris [7]. C'est ainsi comme nous atteindons travailler seulment avec des régions codifiants (évitant les intrones et régions intergenetiques) et nous obtenons une réduction de la base de donées pour obtener des hits plus spécifiques et moins faux positives. Ce Blast êtait aussi impossible de réaliser,

Revenu

5. Résultat

Nous avons creé un patron lequel nous a donée des séquences qui contenaient genes avec des structures secondaires dans le 3' et le 5' UTR qui pouvaien correspondre a des IREs réals. Cette prediction s'avait realisé sur les 60770 cDNAS de souris et les résultats êtaient verifiés pour hómologie avec le Blast contre ESTs humaines. Les résultats obtenus aprés tout ce procès n'êtaient trop significatif comme nous avons dit anteriorment. Vous pouvez consultez ces réslultats dans le suivant link.

Revenu

HOME

2-03-2003

E-mail: anuky4@hotmai.com ; yurcelay@hotmail.com