Por Martí Nolla y Ferran Pons
Basándonos en la base de datos NCBI hemos encontrado un total de 61 secuencias proteicas humanas que contienen IREs. La búsqueda la realizamos mediante las palabras clave "IRE", "transferrin" y "ferritin". Estas dos últimas proteínas sabíamos previamente que contenían IREs. Las 61 secuencias están recopiladas en el fichero secuencias
El siguiente paso consistió en hacer un BLAST tirando las 61 proteínas encontradas que contenían IREs contra los 60.000 cDNAs de ratón. El programa utilizado fue el tBLASTn, el cual nos permite comparar secuencias proteicas con secuencias nucleotídicas. El objetivo de este procedimiento fue encontrar proteínas de ratón que tuvieran el mismo patrón que las proteínas con IREs humanas.
Partiendo de la base que las proteínas de ratón que contuvieran IREs tenían que tener una gran similaridad de secuencia intentamos hacer varios BLASTs con E values distintos. Finalmente nos quedamos con un E value = 0.00001 por la razón expuesta, puesto que de esta manera conseguíamos reducir el número de apareamientos al azar.
blastall -p tblastn -i ires.fa -d db/M.musculus/cDNA/fantom2.00.seq.ri -e 0.00001 > prova3.tblastn
blastall -p tblastn -i ires.fa -d db/M.musculus/cDNA/fantom2.00.seq.ri -e 0.001 > prova23.tblastn
Para simplificar los resultados hemos agrupado los querys (IREs humanos) sólo con el número del identificador, y los hemos relacionado con el identificador del subject (cDNAs).
grep "Query=|>ri_" prova3.tblastnEjemplo 1 de query y sus subjects relacionados.
A continuación hemos ordenado los subjects y contado el número total que nos ha dado el BLAST. Obteniendo 424 cDNAs.
egrep ">ri_" prova3.tblastn | sort | uniq | wc -l (424)Una vez llegados a este punto, lo que hemos hecho es ver cuántas pautas de lectura encontrábamos para todos los cDNAs del resultado del BLAST.
check frame:
grep "Frame" prova3.tblastn | wc -l (el resultado fue de 1045)
comprobar cuantos están en forward
grep "Frame" prova3.tblastn | grep "+" | wc -l (el resultado fue de 1016)
comprobar cuantos están en reverse
grep "Frame" prova3.tblastn | grep "-" | wc -l (el resultado fue de 29)
Encontrando un total de 29 cDNAs que estaban en reverse hemos procedido a identificarlos
gawk '{if (substr($1,1,1)==">") printf "\n%s ",$1; if ($1=="Frame") printf "%s ", $3}' prova3.tblastn | grep "-" | more
Hemos elegido uno de estos cDNAs en reverse para estudiarlo un poco más, ya que a priori no esperaríamos encontrar secuencias IREs en reverse, pero por sorpresa nuestra éste presentaba muy buen score.
cDNA in reverse: >ri_A230097D22_PX00130O17_1391 Length = 1391 Score = 100 bits (249), Expect = 1e-20 Identities = 46/46 (100%), Positives = 46/46 (100%) Frame = -3 Query: 142 QFWQYGEWVEVVVDDRLPTKDGELLFVHSAEGSEFWSALLEKAYAK 187 QFWQYGEWVEVVVDDRLPTKDGELLFVHSAEGSEFWSALLEKAYAK Sbjct: 1116 QFWQYGEWVEVVVDDRLPTKDGELLFVHSAEGSEFWSALLEKAYAK 979 Score = 71.6 bits (174), Expect = 6e-12 Identities = 33/34 (97%), Positives = 33/34 (97%) Frame = -3 Query: 406 TFLVGLIQKHRRRQRKMGEDMHTIGFGIYEVPEE 439 TFLVGLIQKHRRRQRKMGEDMHTIGFGIYEVP E Sbjct: 114 TFLVGLIQKHRRRQRKMGEDMHTIGFGIYEVPAE 13
Utilizando el programa RNAfold calculamos la energía libre de Gibbs para una serie de cDNAs que pueden contener IREs. Estos cDNAs fueron obtenidos mediante un programa que selecciona aquéllos que presentan un patrón que presumiblemente está en los IREs, el patrón laxo . Sabemos que los IREs son muy estables, y por lo tanto tienen un valor de energía libre de Gibbs negativo, ya que en teoría cuanto más bajo es este valor, más terodinámicamente estable son.
El fichero laxo contiene aquellos cDNAs en forward filtrados por el patrón laxo. Se han seleccionado 601 cDNAs de los 60.000 iniciales. El resultado del RNAfold lo guardamos en sortida3.RNAfold
RNAfold < IRESpatrolaxeforward.fasta > sortida3.RNAfold
Para facilitar la manipulación de los datos hemos quitado los puntos, paréntesis y la secuencia en FASTA del resultado obtenido por el RNAfold, quedándonos sólo con el identificador del cDNA y el valor de la energía libre de Gibbs en el fichero sortida3.RNAfold.tbl
sed -e 's/[)(]//g' -e /^[UGCA]/d sortida3.RNAfold | gawk '{if (substr($1,1,1)==">"); printf "\n%s "$1;if (substr($1,1,1)!=">") {$1 =""; print $0}}' | more
Con el fichero limpio, lo que realizamos a continuación es un filtrado del resultado dado por el RNAfold. Leyendo los resultados obtenidos en el trabajo sobre IREs 2001-2002 nos damos cuenta que no encontraron ningún IREs con un valor de enegía libre de Gibbs superior a -1.80, por lo cual decidimos realizar el primer filtraje con un cut off de -2.00, obteniendo un total de 530 secuencias sobre el total de 601 de que partíamos. Introducimos las secuencias en sortida5.RNAfold .
gawk '{if($2 <= -2) print $0}' sortida3.RNAfold.tbl >sortida5.RNAfold (530)
Repetimos este paso pero cogiendo un cut off de -3.00 para evitar los falsos positivos que se encontrarían en el filtraje anterior. Introducimos los resultados en sortida6.RNAfold. Encontramos un total de 428 secuencias.
gawk '{if($2 <= -3) print $0}' sortida3.RNAfold.tbl >sortida6.RNAfold (428)
Repetición del filtraje para un cut off de -6.00. Colocamos los resultados en sortida7.RNAfold. Obtenemos un total de 166 secuencias.
gawk '{if($2 <= -6) print $0}' sortida3.RNAfold.tbl >sortida7.RNAfold (166)
Para elegir el cut off adecuado nos hemos basado en el porcentaje de IREs reales totales contenidos en cada uno de los cut off. Estos valores fueron obtenidos del trabajo sobre IREs 2001-2002
deltaG<=-2 (90.6%) deltaG<=-3 (53.12%) deltaG<=-4 (46.88%) deltaG<=-5 (43.75%) deltaG<=-6 (25%) deltaG<=-7 (15.63%)
En un principio esperamos coger el cut off menos negativo, puesto que de esta manera nos aseguraríamos de no perder ninguna secuencia con IREs. Esta elección tendría el problema que cogeríamos también muchos falsos positivos que tendrían que ser filtrados posteriormente. Para realizar esto es necesario hacer un filtraje mediante otro método, el cual necesita analizar secuencias mínimamente largas para poder campararlas, lo cual no sucede con las secuencias IREs. Por tanto, de esta manera obtendrímos una validación de los resultados poco sensible, recogiendo muchos falsos positivos. Así pues, hemos decidido basarnos en un cut off de -3 presumiendo que vamos a perder algunas de las secuencias IREs pero que, a su vez, vamos a reducir mucho el número de falsos positivos.
Una vez tenemos el resultado a partir de nuestro tBLASTn y del patrón laxo corrido por el programa RNAfold y filtrado procedemos a comparar las secuencias IREs obtenidas por uno y otro método. Esto lo podemos realizar con los distintos cut off que hemos utilizado, de forma que comparamos de mayor o menor número de secuencias.
Para poder hacer la comparación anterior correctamente de las secuencias tenemos que limpiar nuestros ficheros mediante la orden:
sort sortida5.RNAfold | gawk -F"[ :]" '{print $1,$4}' > sortida5.RNAfold.sort sort sortida6.RNAfold | gawk -F"[ :]" '{print $1,$4}' > sortida6.RNAfold.sort sort sortida7.RNAfold | gawk -F"[ :]" '{print $1,$4}' > sortida7.RNAfold.sort
Ahora ya podemos comparar los resultados de los dos métodos y obtenemos: Por un cut off de -2 obtenemos 14 secuencias con IREs
join prova3.tblastn.cDNAs sortida7.RNAfold.sort | more ri_0610006G13_R000001C10_918 -2.50 ri_0610006K08_R000001M11_922 -2.50 ri_0610011I07_R000002J21_403 -2.50 ri_1110001P10_R000013E13_922 -2.50 ri_1110070P14_ZA00011E19_866 -3.20 ri_1300002E02_R000010J05_2911 -6.80 ri_1300011K05_R000011G10_2966 -6.80 ri_2510027K02_ZX00047P10_923 -2.50 ri_2510030C10_ZX00082I24_921 -2.50 ri_2600017I12_ZX00048A04_924 -2.50 ri_E430019P14_PX00099O06_3004 -6.50 ri_E430022I20_PX00099B18_927 -2.50 ri_E430032I15_PX00101O22_2071 -3.20 ri_F630105G17_PL00015G24_1979 -3.20
Por un cut off de -3 obtenemos 6 secuencias con IREs
join prova3.tblastn.cDNAs sortida6.RNAfold.sort | more ri_1110070P14_ZA00011E19_866 -3.20 ri_1300002E02_R000010J05_2911 -6.80 ri_1300011K05_R000011G10_2966 -6.80 ri_E430019P14_PX00099O06_3004 -6.50 ri_E430032I15_PX00101O22_2071 -3.20 ri_F630105G17_PL00015G24_1979 -3.20
Por un cut off de -6 obtenemos 3 secuencias con IREs
join prova3.tblastn.cDNAs sortida7.RNAfold.sort | more ri_1300002E02_R000010J05_2911 -6.80 ri_1300011K05_R000011G10_2966 -6.80 ri_E430019P14_PX00099O06_3004 -6.50
El siguiente paso a realizar, es una validación comparativa human-mouse, de los datos del RNAfold una vez filtrados, y un blast de los 601 IREs contra el genoma humano. Pero por problemas técnicos decidimos hacer el blast contra ESTs para mejorar la especificidad, pero los problemas continuan debido a la corta longitud de los IREs. validacion
Por esta razón realizamos una validación termodinámica de aquellas 51 posibles proteínas con un IRE en el mRNA, que contengan IREs lo suficientemente estables. Una vez lo hemos hecho por las distintos valores de delta de Gibbs, nos quedamos con el deltaG<=-2.
join sortida3.RNAfold.tbl_2.id IRESfantom.geneid_ORF_IRE.id | wc -l (45 cDNAs con deltaG<=-2) join sortida3.RNAfold.tbl_3.id IRESfantom.geneid_ORF_IRE.id | wc -l (36 cDNAs con deltaG<=-3) join sortida3.RNAfold.tbl_4.id IRESfantom.geneid_ORF_IRE.id | wc -l (30 cDNAs con deltaG<=-4) join sortida3.RNAfold.tbl_5.id IRESfantom.geneid_ORF_IRE.id | wc -l (25 cDNAs con deltaG<=-5) join sortida3.RNAfold.tbl_6.id IRESfantom.geneid_ORF_IRE.id | wc -l (21 cDNAs con deltaG<=-6) join sortida3.RNAfold.tbl_7.id IRESfantom.geneid_ORF_IRE.id | wc -l (16 cDNAs con deltaG<=-7)
Como se puede comprobar el número total de cDNAs que contienen IREs no es demaiado elevado para ninguno de los delta de Gibbs, de manera que decidimos coger el valor de -2, ya que de esta manera nos aseguramos una sensibilidad del 90%, es decir, sabemos con casi total seguridad que todos los IREs predichos lo son realmente y a la vez nos quedamos con muy pocas secuencias (45) respecto del total que partíamos (51). Por tanto, en un principio, tambiéen alcanzamos una especificidad elevada, ya que con mucha sensibilidad obtenemos muy pocos candidatos menos.
Ahora necesitamos saber la descripción de estos cDNAs en un base de datos proteica, de manera que, una vez transformados estos cDNAs a la proteína predicha por el programa geneid, realizamos un BLASTP.
sed -n '/>/,/^$/p' IRESfantom.geneid | gawk -F"|" '{print $1}' | sed 's/_[0-9]$//' | FastaToTbl | gawk 'length($2)>=15' | sort | join -IRESfantom.geneid_ORF_IRE.id_RNAfold.2 | TblToFasta >IRESfantom.geneid_ORF_IRE.id_RNAfold.2.prot.fa
blastall -p blastp -i IRESfantom.geneid_ORF_IRE.id_RNAfold.2.prot.fa -d IPI/ipi.HUMAN.fasta -e 0.00001 > IRESfantom.geneid_ORF_ IRE.id_RNAfold.2.prot.ipi.blastp
Con el BLASTP podemos dividir los resultados obtenidos en tres grupos:
Conocidas o similares a proteínas conocidas
Relacionadas con el metabolismo del hierro (11 proteínas)
Sin relación con el metabolismo del hierro (27 proteínas)
Hipotéticas (7 proteínas)
La búsqueda de IREs humanos conocidos mediante la base de datos de NCBI no fue lo sufientemente estricta, ya que utilizando las palabras claves "IRE", "transferrin" y "ferritin" obtuvimos 61 secuencias humanas que presumiblemente contenían IRES. Por eso, 7 secuencias de nuestro fichero no tenían ninguna relación con los IREs.
>gi|28380299|sp|P17655|CAN2_HUMAN Calpain 2 >gi|120649|sp|P04406|G3P2_HUMAN Glyceraldehyde 3-phosphate dehydrogenase, liver >gi|6685695|sp|Q9Y6K9|NEMO_HUMAN NF-kappaB >gi|16753227|ref|NP_000961.2| ribosomal protein L6 >gi|105763|pir||A32992 cyclin B1 - human >gi|21104394|dbj|BAB93467.1| natural resistance-associated macrophage protein 2 non-IRE
Por lo tanto, después de usar el programa tBLASTn habremos obtenido más falsos positivos. Aú así, cuando realizamos la validación con el RNAfold, donde todas las 601 secuencias contienen IREs, estos falsos positivos no tendrían porqué interferir en el resultado. Por este hecho, hemos decidido no repetir todo el proceso sin estas 7 secuencias. Además, una vez realizado el tBLASTn el número de subjects con o sin estas 7 secuencias fue de 424 y 386, respectivamente, lo cual indica que no hay demasiada variación utilizando un u otro fichero.
Los resultados de la comparación entre el filtraje realizado mediante el patrón laxo y el tBLASTn son muy inferiores a los esperados. Así:
Por un cut off de -2 obtenemos 14 secuencias con IREs
join prova3.tblastn.cDNAs sortida7.RNAfold.sort | more ri_0610006G13_R000001C10_918 -2.50 ri_0610006K08_R000001M11_922 -2.50 ri_0610011I07_R000002J21_403 -2.50 ri_1110001P10_R000013E13_922 -2.50 ri_1110070P14_ZA00011E19_866 -3.20 ri_1300002E02_R000010J05_2911 -6.80 ri_1300011K05_R000011G10_2966 -6.80 ri_2510027K02_ZX00047P10_923 -2.50 ri_2510030C10_ZX00082I24_921 -2.50 ri_2600017I12_ZX00048A04_924 -2.50 ri_E430019P14_PX00099O06_3004 -6.50 ri_E430022I20_PX00099B18_927 -2.50 ri_E430032I15_PX00101O22_2071 -3.20 ri_F630105G17_PL00015G24_1979 -3.20
Por un cut off de -3 obtenemos 6 secuencias con IREs
join prova3.tblastn.cDNAs sortida6.RNAfold.sort | more ri_1110070P14_ZA00011E19_866 -3.20 ri_1300002E02_R000010J05_2911 -6.80 ri_1300011K05_R000011G10_2966 -6.80 ri_E430019P14_PX00099O06_3004 -6.50 ri_E430032I15_PX00101O22_2071 -3.20 ri_F630105G17_PL00015G24_1979 -3.20
Por un cut off de -6 obtenemos 3 secuencias con IREs
join prova3.tblastn.cDNAs sortida7.RNAfold.sort | more ri_1300002E02_R000010J05_2911 -6.80 ri_1300011K05_R000011G10_2966 -6.80 ri_E430019P14_PX00099O06_3004 -6.50
Analizando estos resultados podemos ver como obtenemos 14, 6 y 3 secuencias a medida usamos un cut off más bajo. Esto es perfectamente lógico, ya que a medida que disminuímos el cut off menos secuencias pasarán por el filtro. Sin embargo, partiendo de 601 secuencias del patrón laxo y 424 secuencias del tBLASTn no es lógico encontrar tan paupérrimo número de secuencias al comparar los 2 métodos. Aceptando que nuestro tBLASTn si tiene algún error es su falta de especificidad, pero no de sensibilidad, ya que todos los IREs reales están presentes aunque no todo lo que predecimos son realmente IREs. Es decir, obtenemos falsos positivos que en teoría corresponderían a la resta entre las 424 y las 386 secuencias con o sin las 7 secuencias comentadas anteriormente. Pero esto no afectaría a la comparación. Por lo tanto, una de las razones de este número tan reducido de secuencias podría estar en el método utilizado para realizar el patrón laxo, ya que éste entre otras cosas tenía en cuenta las secuencias IREs del trabajo del 2002. Otra razó que podría explicar este problema es que algunas de las proteínas humanas que contienen IREs no estén presentes en los 60.000 cDNAs de ratón. Es decir, que algunos ortólogos de IREs humanos no estén presentes en el genoma de ratón.
La validación termodinámica de las 51 secuencias que contienen IREs en su mRNA obtenidas por el programa predictor nos ha permitido obtener un total de 45 secuencias con una delta de Gibbs de -2, de las cuales nos interesan especialmente el tercer grupo formado por 7 proteínas hipotéticas, puesto que el primer grupo está formado por 11 proteínas perfectamente caracterizadas y el segundo grupo deducimos que corresponden a falsos positivos, ya que son proteínas sin relación con el metabolismo del hierro que el programa Patscan ha interpretado como IREs sin que estas secuencias los contengan realmente.
Así pues, ahora analizaremos las 7 secuencias del tercer grupo una por una teniendo en cuenta que la conformación típica de un IRE es Apareamiento-Bucle-Apareamiento-Bucle:
ri_4932408B01_PX00017I03_3103.README
### Gene + IRE ### # Gene 1 (Forward). 1 exons. 7 aa. Score = 1.000000 IRE 871 889 1.00 + 1 0 0.00 0.00 0.00 0.00 AA 1: 7 ri_4932408B01_PX00017I03_3103_1 >ri_4932408B01_PX00017I03_3103_1|geneid_v1.1_predicted_protein_1|7_AA aASQ*AV # Gene 2 (Forward). 1 exons. 714 aa. Score = 48.377367 Single 891 3032 48.38 + 0 0 -2.31 0.00 136.91 0.00 AA 1:714 ri_4932408B01_PX00017I03_3103_2 >ri_4932408B01_PX00017I03_3103_2|geneid_v1.1_predicted_protein_2|714_AA MHTGESYRKIQEEREVIDRALPTQHDGKATSWFWSPLEYLGDEMTGLLMTKKKTQRGLVE PITHIRKPLSIQVETGLPAQKDAWYRYTWDRSLFLIYRRKELQSIMAELDFSQQDIDGLE VVGHGKPFSSVTVEEHLPPEKIQKSSSEDTVFLDSLTNLSDMVPMPILGPSLLFCGKPAC WVRGSNPEDKKNIGIGVRLTFETLEGERTSSELTVVNNGTVAIWYNWRRRPHQDFFQDLK QNKTQRFYFNNREGVILPGETKHFTFFFKSLNAGIFRESWEFGTHPTLLGGAVLQVTLHA ISLTQDIFMDERKLLETKLAAHEAITIAQSVLQDLLRGISTPERTPSPVDAYLTEEDLFN YRNPRLHYQHQVVQNLHQLWQQYRKAKATQKETPSLRTPVPLLLVEKASGSISPRNLVSE YSQLSPHQEMDTARKTRDFFLSLKSSIGKKSVARKSIMEELLVEEGPDRETTQRPWALKS ISPPKWNLCLEDFRQAVMTFPEELQREDALIQLNKAAMELCQEQKPLQSDLLYQMCLQLW RDVIDSLVSQSLWLRNLLGLPEKETVYLDLPDEQGQKSPPVTESKVTSGKAGKEDRRGGA QEKKQLGTKDKDDKRGSKTPGKEDRPNSKKLKPKDDKKVVKSASRDRLLSEDPPPDSTAP SQEPIDPLVMEKYTQRLHAEVYALLDNLVTDVMVLADELSSTKNVEESLRFCS* ### IRE ### >ri_4932408B01_PX00017I03_3103:[871,889] AGCCAGCCAGUGAGCUGUU ...((((......)))).. ( -4.10)
En este caso podemos observar que, aunque el codón de inicio del gen tiene un score negativo (-2.31), la puntuación del uso de codones mediante una razón de verosimilitud es muy elevada (136.91), lo cual nos confirma que se trata de un gen real. Por otra parte, la estructura tridimensional predicha es muy similar a la de cualquier IRE, es decir: bucle, apareamiento y bucle. Aunque para ser precisos esta estructura también debería contener un apareamiento inicial. Además, tenemos otro dato que nos permite reafirmar la probabilidad de que este gen contenga un IRE: -4.10 de delta de Gibbs, la cual es suficientemente baja teniendo en cuenta que nosotros hemos decidido poner un cut off de -2 para nuestra validación termodinámica.
ri_4932412F22_PX00017K18_3406.README
### Gene + IRE ### # Sequence ri_4932412F22_PX00017K18_3406 - Length = 3406 bps # Optimal Gene Structure. 2 genes. Score = 5.055947 # Gene 1 (Forward). 1 exons. 7 aa. Score = 1.000000 IRE 218 236 1.00 + 1 0 0.00 0.00 0.00 0.00 AA 1: 7 ri_4932412F22_PX00017K18_3406_1 >ri_4932412F22_PX00017K18_3406_1|geneid_v1.1_predicted_protein_1|7_AA tPGQCLW # Gene 2 (Forward). 1 exons. 94 aa. Score = 4.055947 Single 1618 1899 4.06 + 0 0 1.05 0.00 22.31 0.00 AA 1: 94 ri_4932412F22_PX00017K18_3406_2 >ri_4932412F22_PX00017K18_3406_2|geneid_v1.1_predicted_protein_2|94_AA MALRRGSRNLVFRDFTDEKEGPITKHIRLTAALILKNIGKYSECGRRLLKRHENNLSVLA ISNMEASSTLAKCLYELNFTVQSKEQEKDSEML* ### IRE ### >ri_4932412F22_PX00017K18_3406:[218,236] UCCGGGGCAGUGUCUUUGG .((((((......)))))) ( -2.70)
La predicción del gen parece correcta, puesto que tanto los valores del codón inicio como del uso de codones son positivos (1.05 y 22.31 respectivamente), aunque comparándolo con el gen anterior la razón de verosimilitud es mucho más baja, lo cual nos permite poner en duda la fiabilidad de esta predicción. Respecto al posible IRE que contiene esta secuencia hay que poner en duda su veracidad, ya que ni la estructura predicha (apareamiento-bucle) ni el valor de la delta de Gibbs (-2.70) determinan firmemente que esta secuencia contenga un IRE, más bien todo lo contrario.
ri_4932417I16_PX00017L19_2921.README
### Gene + IRE ### # Gene 1 (Forward). 1 exons. 9 aa. Score = 1.000000 IRE 379 404 1.00 + 2 0 0.00 0.00 0.00 0.00 AA 1: 9 ri_4932417I16_PX00017L19_2921_1 >ri_4932417I16_PX00017L19_2921_1|geneid_v1.1_predicted_protein_1|9_AA tcCSSQS*DR # Gene 2 (Forward). 1 exons. 202 aa. Score = 11.123120 Single 457 1062 11.12 + 0 0 -0.40 0.00 40.91 0.00 AA 1:202 ri_4932417I16_PX00017L19_2921_2 >ri_4932417I16_PX00017L19_2921_2|geneid_v1.1_predicted_protein_2|202_AA MDVLYFKLELPLQPTEHVLGVQLILTFSYQLHRMSTFEMQSMAFLQSSFAVPGSQLYVNG DLRLQQKQPLSYRGLDIRYNVSVINGTSPFAQDYDLTHIVAAYQERNVTTVLSDPNPIWL VGRAAEAPFVIHAVIRYPTEVISYQPGFWEMIKFAWIQYVSILLIFLWVFERIKIFVFQN QVVTSIPVAVPQGEIRKEHLS* ### IRE ### >ri_4932417I16_PX00017L19_2921:[379,404] UCUGCUCCUCACAGAGCUGAGACAGG ((.((((......)))).))...... ( -6.00)
Este es un caso muy dudoso, ya que aunque la secuencia tiene una alta estabilidad (-6.00), la estructura predicha no se parece a la típica de un IRE. Así podemos confirmar que se trata de un gen debido a los valores positivos del codón de iniciación y de la razón de verosimilitud del uso de codones de la secuencia, pero no podemos afirmar que se trata de un IRE.
ri_9130229N11_PX00061I22_1928.README
### Gene + IRE ### # Gene 1 (Forward). 1 exons. 8 aa. Score = 1.000000 IRE 12 35 1.00 + 0 0 0.00 0.00 0.00 0.00 AA 1: 8 ri_9130229N11_PX00061I22_1928_1 >ri_9130229N11_PX00061I22_1928_1|geneid_v1.1_predicted_protein_1|8_AA GGWAVLQA # Gene 2 (Forward). 1 exons. 146 aa. Score = 0.563050 Single 404 841 0.56 + 0 0 0.12 0.00 13.73 0.00 AA 1:146 ri_9130229N11_PX00061I22_1928_2 >ri_9130229N11_PX00061I22_1928_2|geneid_v1.1_predicted_protein_2|146_AA MLGAHFPPPPLGASEGRAAPCTFQIPDGSYRCLALEAEESSSEDGLQGEVRLVDLEEEGT SQSRANHGTPPLSRAPAIIQPSSCHREARGGFQRSDRPSHDWDVVQARKVMTASGSSSPV PRVAQKPAKKPMTLGEDESLPKPQG* ### IRE ### >ri_9130229N11_PX00061I22_1928:[12,35] GGUGGCUGGGCAGUGCUCCAGGCC ...((((((((...))))..)))) ( -7.70)
Esta secuencia es muy estable, como lo demuestra su valor de delta de Gibbs=-7.70, y además la estructura mediante la cual alcanza tal elevada estabilidad es propia de una secuencia IRE.
ri_A530032D04_PX00140H12_1918.README
### Gene + IRE ### # Gene 1 (Forward). 1 exons. 10 aa. Score = 1.000000 IRE 596 623 1.00 + 1 0 0.00 0.00 0.00 0.00 AA 1: 10 ri_A530032D04_PX00140H12_1918_1 >ri_A530032D04_PX00140H12_1918_1|geneid_v1.1_predicted_protein_1|10_AA aGHMSSVSSP # Gene 2 (Forward). 1 exons. 29 aa. Score = 0.136774 Single 1799 1885 0.14 + 0 0 3.25 0.00 9.22 0.00 AA 1: 29 ri_A530032D04_PX00140H12_1918_2 >ri_A530032D04_PX00140H12_1918_2|geneid_v1.1_predicted_protein_2|29_AA MKRELLKQPPEVQQSVNENDTFKFGKED* ### IRE ### >ri_A530032D04_PX00140H12_1918:[596,623] AGGUCACAUGAGCAGUGUCUCAUCACCU ((((...(((((......))))).)))) ( -5.70)
Esta secuencia tiene una razón de verosimilitud respecto al uso de codones muy poco positiva, lo que pone en duda la fiabilidad de esta secuencia. Sin embargo, su conformación es muy estable y corresponde a un IRE.
ri_A530082C21_PX00143H23_4664.README
### Gene + IRE ### # Gene 1 (Forward). 1 exons. 8 aa. Score = 1.000000 IRE 304 325 1.00 + 1 0 0.00 0.00 0.00 0.00 AA 1: 8 ri_A530082C21_PX00143H23_4664_1 >ri_A530082C21_PX00143H23_4664_1|geneid_v1.1_predicted_protein_1|8_AA tVLCSAVA # Gene 2 (Forward). 1 exons. 434 aa. Score = 22.587603 Single 2862 4163 22.59 + 0 0 0.78 0.00 69.05 0.00 AA 1:434 ri_A530082C21_PX00143H23_4664_2 >ri_A530082C21_PX00143H23_4664_2|geneid_v1.1_predicted_protein_2|434_AA MQRMIQQFAAEYTSKTSSTQDPSQPNSTKNQSLPKASPVTTSPTAATTQNPVLSKLLMAD QDSPLDLTVRKSQSEPSEQDGVLDLSTKKSPCASSTSLSHSPGCSSTQGNGRPGRPSQYR PDGLRSGDGVPPRSLQDGTREGFGHSTSLKVPLARSLQISEELLSRNQLSTAASLGPSGL QNHGQHLILSREASWAKPHYEFSLSRMKFRGNGALSNISDLPFLAENSAFPKMAHQTKQD GKRDMSHSSPVDLKIPQVRGMDLSWESRTGDQYSYSSLVMGSQTESALSKKLRAILPKQN RKSMLDAGPDSWGSDAEQSTSGQPYPTSDQEGDPGSKQPRKKRGRYRQYNSEILEEAISV VMSGKMSVSKAQSIYGIPHSTLEYKVKERLGTLKNPPKKKMKLMRSEGPDVSVKIELDPQ GEAAQSANESKTE* ### IRE ### >ri_A530082C21_PX00143H23_4664:[304,325] UGUGCUGUGCAGUGCUGUAGCA ..(((((.((...))..))))) ( -5.10)
Esta secuencia contiene muy probablemente un gen debido a sus valores positivos tanto en el codón de inicio (0.78) como sobre todo en la razón de verosimilitud del uso de codones (69.05). Además, parece que adopte la conformación de IRE si aceptamos que el primer bucle está constituído por sólo dos bases desapareadas.
ri_C130098D09_PX00173E11_2583.README
### Gene + IRE ### # Gene 1 (Forward). 1 exons. 8 aa. Score = 1.000000 IRE 316 339 1.00 + 0 0 0.00 0.00 0.00 0.00 AA 1: 8 ri_C130098D09_PX00173E11_2583_1 >ri_C130098D09_PX00173E11_2583_1|geneid_v1.1_predicted_protein_1|8_AA RFTPVSVA # Gene 2 (Forward). 1 exons. 546 aa. Score = 54.777917 Single 451 2088 54.78 + 0 0 -1.33 0.00 151.44 0.00 AA 1:546 ri_C130098D09_PX00173E11_2583_2 >ri_C130098D09_PX00173E11_2583_2|geneid_v1.1_predicted_protein_2|546_AA MTKVPATKKLQKITSKKALWLFSSADQLTQQASDKTAKNSKYIDKEIANLKKDLMRSRFL IQCVKIGRGYFNILREENAMKKKQQLLQKLKEEELNKFQPAKKFSDIHCRDNLLATYDCE KLKKLEAGIIIRPFTPIHSCLMAPSLPESHVDPLFRQLCALHWLLEALTIDHTHHTMRPL IACWNPKDPGGSKSTIKKINKDKSMGQRWDHFVTAPKTKKYKAPAIRTAMASRKPSRRGS TLSLTRTSGGSSPQSSMMSVNPGSDEPMGSKDIEDNESSSTKPEEEILHLYLQKLLEMVR EDARRTILVESEIQKKAPSILSLVKQIKSEYGWKEWQTTHKSSERSSTTSAESHIQVIQK KSKSRVNRDIIYCKTGVCSNMRAKFFSVAQEAGFCLQDKMEILRKRQEERGLQKFHSFIV TSNFQKDITKMRHQVSIVKGDAEEIADHWYFDLLSKLPEDLKSFRPAKKILMKLQKFGEN LDLRIRPHVLLKVLQDLRIWELCSPDIAVAIEFVREHIIHMPQEDYINWLQSRVNIPFRQ RTILT* ### IRE ### >ri_C130098D09_PX00173E11_2583:[316,339] CGUUUCACACCAGUGAGUGUUGCG ((.(((((....)))))...)).. ( -4.30)
Esta última secuencia es muy probablemente un gen real, ya que el valor de la razón de verosimilitud es muy elevado (151.44). En este caso la conformación adoptada es muy parecida a la de un IRE si obviamos las dos últimas bases desapareadas de la secuencia lineal y si aceptamos que el primer bucle está formado por tres bases desapareadas.
Una vez analizadas las 7 secuencias expuestas anteriormente, es obvio que la validación termodinámica no es todo lo óptima que desearíamos. Por lo tanto, proponemos seguidamente una serie de opciones que permitirían mejorar la predicción final de estructuras IREs:
- Como conocemos perfectamente la estructura que adoptan los IREs podríamos restringir las condiciones de análisis del programa Patscan forzando a que éste solamente haga las predicciones junto con su estabilidad termodinámica de aquellas secuencias que puedan adoptar la estructura que nosotros previamente determinamos. Es decir, apareamiento, bucle con una C desapareada, apareamiento y bucle final.
- Una vez obtenidos los resultados de nuestra validación termodinámica, podrímos lanzar cada una de nuestras 7 secuencias que presumiblemente contienen IREs desconocidos contra una base de datos de dominios proteicos, como por ejemplo Interpro. De esta manera, si alguna de estas secuencias tuviera un dominio de unión a hierro podríamos confirmarlo con la base de datos y nos permitiría reafirmar la validación termodinámica predicha anteriormente.
http://www.nature.com/cgi-taf/DynaPage.taf?file=/nature/journal/v420/n6915/full/nature01266_fs.html
http://www.jbc.org/cgi/content/full/275/52/40659
http://www.ldc.usb.ve/~vtheok/webmaestro/
PROGRAMAS
http://www-unix.mcs.anl.gov/compbio/PatScan/HTML/patscan.html
http://bioweb.pasteur.fr/seqanal/interfaces/rnafold-simple.html
http://www.ncbi.nlm.nih.gov/BLAST
Queremos agradecer:
por su paciencia y soporte técnico a Castellano, S.
por sus magníficas prácticas a Castelo, R.
por sus clases teóricas a Guigó, R.