Abstract | Introducció | Materials i Mètodes | Resultats | Discussió | Bibliografia |
Índex
A la taula que hi ha a continuació trobem totes les proteïnes, tant humanes com de Drosophila , que s'han utilitzat per buscar proteïnes homòlogues en el genoma de P. tetraurelia. Clicant sobre el número de referència accedim a les seqüències aminoacídiques en format FASTA. En la segona columna, s'indica el resultat obtingut del tblastn inicial realitzat pel shell. Trobem una explicació més extensa d'aquells resultats segnificatius més endavant (veure índex). Llegenda de colors: La llegenda que veiem a continuació fa referència al codi de colors que hem utilitzat en els links de 'Seqüència completa de Paramecium tetraurelia' que trobem en els següents apartats.
Hi
ha diferents tipus de proteïnes implicades en la síntesi de
selenoproteïnes. Aquestes proteïnes se les denomina maquinària de
síntesi. Les podem classificar segons la seva funció en: Síntesi de Sec (selenocisteïna): SPS1 i SPS2, SLA/LP i Secp43 Incorporació de Sec en Selenoproteïnes: SBP2, eEFSec i tRNA Sec SECIS A partir de la seqüència del eEFSec humana obtinguda del SelenoDB, vam fer un tblastn contra el genoma de Paramecium tetraurelia, i vam obtenir diferents matchs rellevants. Vam decidir escollir aquell que presentava un e–value menor, el scaffold 147. Però en l'anàlisi posterior amb l'exonerate, aquest scaffold no ens mostrava cap resultat significatiu. Per això vam continuar treballant amb el scaffold 128, que també presentava un e–value molt baix. tblastn eEFSec Un cop decidit que el scaffold 128 era el del nostre interès, vam tallar únicament un fragment d'aquest scaffold on estava continguda la eEFSec en Paramecium i vam fer un fastarevcomp ja que ens interessava treballar amb la seqüència reverse. Fragment Scaffold 128 eEFSec Seguidament, per tal de determinar l'estructura gènica de la possible proteïna vam alinear la seqüència de la proteïna humana amb la seqüència corresponent al fragment del scaffold 128. Com hem comentat prèviament, amb el GeneWise no vam obtenir cap informació d'utilitat, ja que sembla que presentava certes limitacions per la correcta predicció de gens del nostre organisme. Per això, vam decidir utilitzar l'exonerate amb la mateixa finalitat. Inicialment l'exonerate no ens va donar tampoc cap resultat significatiu ja que l'homologia entre la proteïna humana i el scaffold no era suficient elevada. Per poder superar el llindar que ens permetès realitzar l'exonerate, vam haver d'agafar l'inici de la proteïna humana i la vam enganxar a la predicció del tblastn. Els resultats donen una predicció de la proteïna dividint–la 3 fragments, entre els quals probablement hi ha un intró. Exonerate eEFSecTAULA RESUM
PROTEÏNES HUMANES
RESULTATS EN P.TETRAURELIA
Eukaryotic elongation factor (eEFSec)
SECIS binding protein 2 (SBP2)
No significatiu
Selenophosphate synthetase 1 (SPS1)
(Veure SPS2)
Selenophosphate synthetase 2 (SPS2)
Glutathione peroxidase 1 (GPx1)
(Veure GPx4)
Glutathione peroxidase 2 (GPx2)
(Veure GPx4)
Glutathione peroxidase 3 (GPx3)
(Veure GPx4)
Glutathione peroxidase 4 (GPx4)
Glutathione peroxidase 5 (GPx5)
No significatiu
Glutathione peroxidase 6 (GPx6)
No significatiu
Glutathione peroxidase 7 (GPx7)
No significatiu
Glutathione peroxidase 8 (GPx8)
No significatiu
Iodothyronine deiodinase 1 (DI1)
No significatiu
Iodothyronine deiodinase 2 (DI2)
(Veure DI3)
Iodothyronine deiodinase 3 (DI3)
Methionine sulfoxide reductase A (MsrA)
No significatiu
Selenoprotein 15 (Sel15)
No significatiu
Selenoprotein H (SelH)
No significatiu
Selenoprotein I (SelI)
No significatiu
Selenoprotein K (SelK)
No significatiu
Selenoprotein M (SelM)
No significatiu
Selenoprotein N (SelN)
No significatiu
Selenoprotein O (SelO)
No significatiu
Selenoprotein P (SelP)
No significatiu
Methionine-R-sufoxide reductase 1 (SelR1)
Methionine-R-sufoxide reductase 2 (SelR2)
No significatiu
Methionine-R-sufoxide reductase 3 (SelR3)
No significatiu
Selenoprotein S (SelS)
No significatiu
Selenoprotein T (SelT)
No significatiu
Selenoprotein U1 (SelU1)
No significatiu
Selenoprotein U2 (SelU2)
No significatiu
Selenoprotein U3 (SelU3)
No significatiu
Selenoprotein V (SelV)
Selenoprotein W1 (SelW1)
No significatiu
Selenoprotein W2 (SelW2)
No significatiu
Thioredoxin reductase 1 (TR1)
Thioredoxin reductase 2 (TR2)
(Veure TR1)
Thioredoxin reductase 3 (TR3)
No significatiu
PROTEÏNES D.MELANOGASTER
RESULTATS EN P.TETRAURELIA
SLA/LP
secp43
No significatiu
Eukaryotic elongation factor (eEFSec)
A partir de la predicció de l'estructura de la proteïna, mitjançant el fastatranslate vam traduir els fragments dels exons de la proteïna. I amb aquesta seqüència traduïda vam fer un tblastn en el NCBI contra els mRNAs coneguts de Paramecium tetraurelia, per comprovar que aquella predicció de proteïna es trobava ja descrita en el nostre organisme. A partir d'aquest mRNA i la seva corresponent proteïna, vam localitzar a la regió d'interès del scaffold l'ATG d'inici de la traducció de la eEFSec de Paramecium i el TGA stop. També vam poder observar l'existència de dos introns en el fragment del scaffold que no ens havia alineat l'exonerate. Comparant amb el mRNA del NCBI vam comprovar que a un dels fragments que l'exonerate havia interpretat que hi hauria un intró estava present en el mRNA de NCBI, i per tant formava part de l'exó. A partir de la informació del mRNA i de l'exonerate vam fer una nova predicció de l'estructura de la proteïna. Seqüència completa de eEFSec de Paramecium Tetraurelia
Proteïna eEFSec de Paramecium Tetraurelia
Aquesta predicció final de la eEFSec de Paramecium Tetraurelia la vam alinear, mitjançant un blast contra tot el seu genoma, per comprovar que la identitat era del 100%, i que efectivament aquella proteïna estava present al nostre organisme. Cal dir però, que les diferències observades corresponen als codons TAG i TAA que el blast interpreta com a codons stop. Blast final
Ja finalment, per observar la identitat entre la eEFSec de Paramecium tetraurelia i la humana, vam fer un alineament mitjançant el ClustalW. Alineament ClustalW
A partir de la seqüència de la SPS1 i SPS2 humanes obtingudes del SelenoDB, vam fer un tblastn contra el genoma de Paramecium tetraurelia, i vam obtenir diferents matchs rellevants. Per les dues proteïnes els matchs més rellevants (amb un e–value menor) estaven localitzats a la mateixa regió en el genoma del Paramecium, amb el que vam suposar que es tractava de la mateixa proteïna.
La SPS2 és una selenoproteïna humana, i en l'alineament es pot observar com l'aminoàcid U es correspon amb una C en Paramecium. En canvi la SPS1 humana, que no és una selenoproteïna, en aquell lloc té una T. tblastn SPS1Selenophosphate synthetase 2 (SPS2)
tblastn SPS2
Per les dues proteïnes els e–values són molt baixos, però la SPS1 ens va donar problemes posteriors quan volíem trobar l'estructura de la proteïna en el exonerate i per això vam continuar l'anàlisi amb la SPS2.
Vam escollir el scaffold 36 ja que era el que presentava un e–value més petit. Vam tallar únicament un fragment d'aquest scaffold on segons la informació del tblastn podia estar continguda la SPS en P. tetraurelia i vam fer un fastarevcomp ja que ens interessava treballar amb la seqüència reverse. Fragment Scaffold 36 SPS
Per tal de determinar l'estructura gènica de la possible proteïna amb l'exonerate, vam alinear la seqüència de la proteïna humana amb la seqüència corresponent al fragment del scaffold 36. Vam obtenir una predicció de l'estructura gènica de la SPS de Paramecium, formada per dos exons separats per un curt intró. Exonerate SPS
A partir de la predicció de l'estructura de la proteïna, mitjançant el fastatranslate vam traduir el fragment de seqüència de la proteïna. A partir d'aquesta seqüència traduïda vam fer un tblastn en el NCBI contra els mRNAs coneguts de Paramecium tetraurelia, per comprovar que aquella predicció de proteína es trobava al nostre organisme. A partir d'aquest mRNA i la seva corresponent proteïna, vam localitzar a la regió d'interès del scaffold l'ATG d'inici de la traducció de la SPS de Paramecium i el TGA stop. Seqüència completa de SPS de Paramecium Tetraurelia
Proteïna SPS de Paramecium Tetraurelia
Aquesta predicció final de la SPS de Paramecium la vam alinear, mitjançant un tblastn contra tot el genoma de Paramecium tetraurelia, per comprovar que la identitat era del 100%, i que efectivament aquella proteïna estava present al nostre organisme. Blast final
Ja finalment, vam realitzar un alineament amb el Clustalw per veure la similitud entre la SPS predita en Paramecium, i la SPS1 i la SPS2 descrites en humans. Alineament ClustalW SPS1
Alineament ClustalW SPS2
Per la maquinària SLA/LP, vàrem utilitzar per fer el blast la seqüència d'aminoàcids de SLA/LP de Drosophila melanogaster què vam obtenir de la següent pàgina web:SLA/LP
En primer lloc vam fer un tblastn de tot el genoma de P. tetraurelia contra la SLA/LP de Drosophila per tal de trobar l'alineament entre regions homòlogues. Vam agafar un e-value com a molt gran d'1.0 i vam especificar que el codi genètic de Paramecium no era estàndard.
Vam tallar el scaffold sencer del genoma que presentava l'e–value més baix, i tot seguit vam extreure la regió en què el blast havia trobat homologia. Com la seqüència estava en revers, la vam girar amb la comanda fastarevcomp perquè tingués la direcció correcta.
Després vam fer sevir exonerate (pel shell) entre la proteïna SLA/LP de Drosophilla i el scaffold tallat de P. tetraurelia. És a dir, vam fer l'exonerate entre una proteïna i una seqüència nucleotídica. De l'exonerate, vam trobar una regió del scaffold_7 que estava alineada amb la proteïna obtenint una pauta de lectura (de les sis possibles).
Per comprovar que aquella estructura existís i trobar l'inici i el final real de la proteïna vam anar al NCBI i vam fer un Nucleotide Blast. Vam col·locar el fragment del scaffold_7 tallat en format FASTA i vam canviar el filtre per obtenir el mRNA. D'aquesta manera vam obtenir la seqüència de mRNA de la maquinària (fiabilitat del 100%). Ara ja teníem, doncs, la seqüència del mRNA i la seqüència d'aminoàcids de SLA/LP. Un cop fet això, vam traduir la seqüència del scaffold que ens havia donat homologia amb l'exonerate a proteïna. Vam obtenir sis pautes de lectura diferents però només vam seleccionar aquella que era igual a la que vam obtenir a l'exonerate i al tblastn realitzat a l'inici de tot. Recordem que P. tetraurelia només té un codó stop i que, per tant, els * que apareixen al mig de les proteïnes predites no són codons stop reals sinó que codifiquen per Gln (Q).
Comparant amb el RNAm obtingut pel NCBI, vam veure que tota la seqüència era coincident fins arribar a un cert punt del final. Vam comparar, doncs, les seqüències de nucleòtids de DNA (de la nostra proteïna) i del RNAm del NCBI i vam veure que només diferien en 25 nt. Vam tornar a traduir la seqüència de nucleòtids de la nostra proteïna sense agafar aquests 25 nt. Ara sí que vam veure que la proteïna del SLA/LP de Paramecium i la del NCBI eren 100% coincidents. Vam concloure, doncs, que aquells 25 nt corresponien a una seqüència intrònica.
Seqüència completa de SLA/LP de Paramecium Tetraurelia
Aquesta predicció final de la SLA/LP de Paramecium la vam alinear, mitjançant un blast contra tot el genoma de Paramecium tetraurelia, per comprovar que la identitat era del 100%.
Finalment, per observar el percentatge d'identitat entre la SLA/LP de Paramecium tetraurelia i la humana, vam fer un alineament mitjançant el ClustalW.
A partir de la seqüència de DI2 i DI3 humanes obtingudes del SelenoDB, vam fer un tblastn contra el genoma de Paramecium tetraurelia, i vam obtenir diferents matchs rellevants. En els dos casos els matchs més rellevants (amb un e–value menor) estaven localitzats a la mateixa regió en el genoma del Paramecium, amb el que vam suposar que es tractava de la mateixa proteïna. En els dos alineaments es pot observar que l'aminoàcid U de la selenoproteïna humana, corresponia amb un codó stop en la seqüència de Paramecium, que ens va fer sospitar de la possible presència d'aquesta selenoproteïna en el Paramecium. Vam continuar l'anàlisi a partir del tblastn de la DI3 ja que l'e–value que presentava era menor que el de la DI2. tblastn DI3 Un cop decidit que l'scaffold 133 era el del nostre interès, vam tallar únicament un fragment d'aquest scaffold on semblava estar continguda la DI en Paramecium. Fragment Scaffold 133 DI
Iodothyronine deiodinase 3 (DI3)
Seguidament, per tal de determinar l'estructura gènica de la possible selenoproteïna, vam alinear la seqüència de la selenoprteïna humana amb la seqüència corresponent del fragment del scaffold 133 mitjançant el programa GeneWise. Com hem comentat prèviament, amb aquest programa no vam obtenir cap informació d'utilitat, ja que sembla que presentava certes limitacions per la correcta predicció de gens del nostre organisme.
Per això, vam decidir utilitzar l'exonerate amb la mateixa finalitat. Inicialment, l'exonerate tampoc ens mostrava cap predicció de proteïna ja que l'homologia entre la proteïna humana i el fragment del scaffold 133 no era suficientment elevada. Per aconseguir un alineament i predicció a partir de l'exonerate vam haver d'agafar l'inici de la selenoproteïna humana i la vam enganxar a la seqüència del scaffold 133 que ens havia alineat el tblastn. Només vam obtenir una seqüència, amb el que vam sospitar que la proteïna estava formada per un sol exó. Exonerate DI
A partir de la predicció de l'estructura de la proteïna, mitjançant el fastatranslate vam traduir el fragment de seqüència de la proteïna. A partir d'aquesta seqüència traduïda vam fer un tblastn en el NCBI contra els mRNAs coneguts de Paramecium tetraurelia, per comprovar que aquella predicció de proteïna es trobava al nostre organisme. Vam obtenir un mRNA dividit en dues seqüències ja que el primer codó TGA que codifica per l'aminoàcid U, havia estat predit com a codó stop . A partir d'aquests mRNAs i les seves corresponents proteïnes, vam localitzar a la regió d'interès del scaffold 133 l'ATG d'inici de la traducció de la DI de Paramecium i el TGA stop. També vam poder observar l'existència de dos introns en un fragment del scaffold que no ens havia alineat l'exonerate i vam fer una nova predicció de l'estructura de la proteïna en Paramecium. Seqüència completa DI deParamecium tetraurelia
Proteïna DI de Paramecium tetraurelia
Aquesta predicció final de la DI de Paramecium la vam alinear, mitjançant un blast contra tot el genoma de Paramecium tetraurelia, per comprovar que la identitat era del 100%, i que efectivament aquella proteïna estava present al nostre organisme. Blast final
Per observar el percentatge d'identitat entre la DI predita de Paramecium tetraurelia i la humana, vam fer un alineament mitjançant el ClustalW. L'alineament contra la DI3 i la DI2 humana donen un resultat molt similar amb la qual cosa no podem afirmar amb seguretat de quina de les dues selenoproteïnes es tracta. Alineament ClustalW DI2
Alineament ClustalW DI3
Ja per acabar, per comprovar definitivament que la proteïna trobada en Paramecium tetraurelia era una selenoproteïna, vam passar el scaffold tallat pel SECISearch. Aquest ens va mostrar la seqüè de l'element SECIS de la selenoproteïna DI.Cal dir però, que l'score del SECIS obtingut és de 13.7 i és inferior al valor que el programa considera òptim. Malgrat això, hem cregut que es complien tots els requisits com a selenoproteïna i a més després de la U hi havia una elevada conservació dels aminoàcids. Per tant, comfirmem la presència d'aquesta selenoproteïna en Paramecium tetraurelia
La tioredoxina reductasa és una selenoproteïna important en la detoxificació del peròxid d'hidrogen. L'espècie humana presenta tres tipus de tioredoxines reductases diferents: TR1, TR2 i TR3. Totes elles presenten una selenocisteïna (U) en la seva seqüència d'aminoàcids. Quan vàrem alinear cadascuna d'elles amb el genoma de Paramecium tetraurelia mitjançant el tblastn del shell, aquesta selenocisteïna humana no va aparèixer en cap dels tres aliniaments realitzats:Thioredoxin reductase 1 (TR1)
Però havíem de fer alguna cosa. D'aquesta manera i com que la seqüència proteica de les tres tioredoxines reductases eren molt semblants, vàrem decidir seleccionar la TR1 humana per poder seguir treballant en aquesta part de projecte.
Observant els resultats obtinguts en el tblast corresponent a la TR1 humana contra el genoma de P. tetraurelia, vàrem agafar el scaffold_11 del nostre organisme perquè el seu alineament presentava un valor de e-value considerablement baix (de l'ordre de 2e-113). Tot seguit, vàrem extreure la regió d'aquest scaffold que tenia més homologia amb la TR1 humana i la vàrem guardar fent un $ emacs TR_scaffold_11_495300-498300.fa:
El següent pas va ser fer anar el programa exonerate. Aquest programa ens va mostrar la seqüència d'aminoàcids predita per al nostre scaffold, així com també els codons que codificaven per a cadascun dels diferents aminoàcids. A més, en els resultats també apareixia la presència de tres exons amb els seus respectius inicis i finals teòrics. Diem teòrics perquè, tal i com ens va dir en Charles Chapple, sovint l'exonerate no mostra els exons sencers.
Així que vàrem buscar l'inici i el final teòric de cadascun dels tres exons en el TR_scaffold_11_495300-498300.fa a partir dels codons que ens mostrava l'exonerate. Però com hem comentat anteriorment, aquests exons no estaven sencers. Per aquesta raó, vàrem decidir ajuntar-los i fer un Nucleotideblast al NCBI per tal d'obtenir la seqüència potencial del seu respectiu RNAm.
Aquest RNAm només presentava els exons, de manera que això ens va ajudar moltíssim. Vàrem procedir aleshores a identificar els inicis i els finals reals de cadascun dels tres exons, així com les seqüències d'iniciació i de finalització de la traducció. El resultat que vàrem obtenir van ser els que es mostren en el següent link:
Seqüéncia completa de TR de Paramecium Tetraurelia
D'altra banda, també vàrem passar aquest scaffold_11 ja tallat pel programa informàtic SECISearch, el qual ens va mostrar la seqüència de l'element SECIS de la potencial selenoproteïna del nostre organisme P.tetraurelia. La seqüència marcada en fucsia del link anterior (Seqüéncia de nucleótids del RNAm) es correspon amb l'element SECIS. Per tant, vàrem deduir que el TGA del RNAm de la seqüència de finalització de la traducció no codificava realment per a un codó Stop, sinó que codificava per a la nostra esperadíssima selenocisteïna. De fet, el següent codó TGA que apareix en blau em el link és el veritable codó Stop de la nostra selenoproteïna TR en P. tetraurelia. En aquest mateix link tambè hi podem veure la seqüència de l'element SECIS en fucsia, la qual es troba aproximadament a unes 105 parells de bases d'aquest codó stop.
Però nosaltres volíem anar més enllà, volíem corroborar els nostres resultats. Per aquesta raó vàrem extreure els veritables introns, de manera que únicament ens vàrem quedar amb la seqüència de nucleòtids que contenia la seqüència d'inici del RNAm, els tres exons i la seqüència de finalització del RNAm. Aquesta seqüència la vàrem guardar fent un $ emacs TR_exons_final_RNAm.fa i la vàrem traduir a proteïna mitjançant la comanda $ fastatranslate TR_exons_final_RNAm.fa > TR_protein_exons_final_RNAm.fa
Possibles proteïnes de TR en P. tetraurelia
De totes les possibles proteïnes obtingudes, vàrem escollir aquella que començava per la metionina, ja que es tracta del primer aminoàcid que s'incorpora a les proteïnes.
Selenoproteïna TR real de Paramecium tetraurelia
Tot seguit vàrem accedir a la pàgina del NCBI i vàrem fer un tblastn d'aquesta seqüència proteica contra el genoma del nostre organisme P. tetraurelia. Els resultats varen ser significatius perquè l'aliniament tenia una valor d'e-value de l'ordre de 0,0 i un 96% d'identitat.
Després, vàrem fer anar el ClustalW. Es tracta d'un programa que realitza aliniaments múltiples entre seqüències de DNA o de proteïnes. En el nostre cas vàrem fer servir la selenoproteïna TR del nostre organisme a estudiar i la TR humana. Els resultats que vàrem obtenir es mostren en el següent link:
En aquest cas, el resultat obtingut amb el tblastn va ser molt interessant ja que la selenocisteïna (U) humana estava alineada amb un codó Stop (*) en P. tetraurelia, tot i tenir un valor de e-value considerablement elevat.Selenoprotein V
Per aquesta raó, vàrem considerar oportú anar al NCBI per tal de fer un tblastn del segment del scaffold (SelV_scaffold_135_215842-216093.fa) contra una seqüència de DNA ja traduïda, la qual dóna evidència de l'existència de l'expressió de dita proteïna en un determinat organisme. Aquesta seqüència de DNA rep el nom d'EST.
L'EST obtingut el vàrem copiar i guardar en un $ emacs SelV_EST.fa i tot seguit el vàrem traduir a proteïna mitjançant la comanda del shell $ fastatranslate SelV_EST.fa. Com a resultat vàrem tenir sis pautes de lectura diferents, però cap d'elles coincidia amb la seqüència d'aminoàcids que havíem obtingut en el primer alineament extret amb el tblastn del shell.
EST corresponent al fragment Scaffold 135
Les sis pautes de lectura del EST
Així doncs, vàrem haver de descartar la possibilitat de que aquesta selenoproteïna SelV existís en el nostre organisme P. tetraurelia per dues raons principals: primer, perquè el valor d'e-value era considerablement elevat; i segon, perquè cap de les sis possibles pautes de lectura del EST coincidien amb la proteïna alineada en el tblastn inicial.
Les glutathione peroxidase són una família d'enzims amb activitat peroxidasa que tenen com a paper principal protegir l'organisme de reaccions oxidatives. Les GPX 1-4, 6 són selenoproteïnes humanes, en canvi, les GPX 5,7 i 8 són proteïnes que contenen cisteïna. Primer de tot vam realitzar un tblastn per cada una de les GPXs humanes contra el genoma del Paramecium tetraurelia i vam observar el següent: Les GPXs que en l'humà són selenoproteïnes, la U (selenocisteïna) de la proteïna humana se'ns alineava amb una cisteïna (C) amb un score força alt i un e-value molt baix en el scaffold 10 del genoma de Paramecium tetraurelia . Això significa que existeix homologia significativa entre la selenoproteïna humana i el scaffold 10 del genoma del nostre organisme. La GPx6 la vam descartar perquè no va trobar homologia. Les GPXs que en l'humà contenen cisteïna (GPx 5,7 i 8), vam poder observar força homologia entre la selenoproteïna humana i un fragment del genoma de P. tetraurelia on la cisteïna de l'humà se'ns alinia amb una altra cisteïna del nostre organisme. Aquestes GPXs per tant, no les hem tingut en compte perquè ni en l'humà ni en Paramecium tetraurelia són selenoproteïnes.
Glutathione peroxidase 4 (GPx4)
Després de realitzar el blast per veure l'homologia i per observar si la U (selenocisteïna) de la proteïna humana se'ns alineava amb una U o C en el nostre organisme, vam seleccionar el scaffold que tenia un e-value més baix i un score més alt. Amb això, vam veure que l'scaffold més significatiu amb el qual les GPxs de la 1 a la 4 tenien més homologia era el número 10. En el blast vam veure també, que la U se'ns alineava amb una cisteïna del nostre organisme. A continuació vam escollir la GPx4 perquè és la que tenia un e-value més baix en aquest scaffold i vam tallar un fragment d'aquesta regió amb la comanda fastasubseq.
Després d'obtenir aquest fragment més petit del scaffold 10, vam realitzar la comanda exonerate per obtenir la seqüència nucleotídica del gen. Al realitzar l'exonerate, no vam obtenir res i vam decidir trobar l'EST d'aquell fragment i tampoc el vam trobar. Com al blast havíem observat que al principi no hi havia homologia, vam enganxar els 39 aminoàcids que faltaven a la proteïna de Paramecium de la selenoproteïna humana. Posteriorment, vam fer un exonerate amb aquesta proteïna i el fragment de scaffold 10 tallat, on obtenim com a resultat una proteïna amb dos exons i un intró.
A partir de la predicció de l'estructura de la proteïna, mitjançant el fastatranslate vam traduir els exons de la proteïna. I amb la seqüència anterior vam fer un tblastn en el NCBI contra els mRNAs coneguts de Paramecium tetraurelia, per comprovar que aquella predicció de proteïna es trobava al nostre organisme. A partir d'aquest mRNA i la seva corresponent proteïna, vam localitzar a la regió d'interès del scaffold l' ATG d'inici de la traducció de la GPx4 de Paramecium i el TGA stop.
Seqüència completa de GPx4 de Paramecium Tetraurelia
Proteïna GPx4 de Paramecium Tetraurelia
Aquesta predicció final de la GPx4 de Paramecium la vam alinear, mitjançant un blast contra tot el genoma de Paramecium tetraurelia, per comprovar que la identitat era del 100%, i que efectivament aquella proteïna estava present al nostre organisme.
Ja finalment, per observar el percentatge d'identitat entre la GPx4 de Paramecium tetraurelia i la humana, vam fer un alineament mitjançant el ClustalW.
El tblastn inicial de SelR1 humana contra el genoma de Paramecium tetraurelia mostrava un alineament de la U humana amb una C al scaffold_111. L'e-value obtingut va ser força baix, per tant vam procedir a extreure el fragment del scaffold que ens interesava.
Methionine-R-sufoxide reductase 1 (SelR1)
Vam utilitzar l'exonerate però degut a que l'homologia entre la proteïna humana i la seqüència de Paramecium no eren prou elevades, no vam obtenir cap resultat. Per superar aquest llindar, vam ajuntar el començament de la proteïna humana a la seqüència aminoacídica de Paramecium . Vam fer córrer l'exonerate una altra vegada i vam obtenir la predicció estructural, en la qual vam veure que aquesta proteïna té dos exons i un intró .
Vam traduir els exons i vam fer el blast contra mRNA al NCBI per tal d'aconseguir la seqüència completa de SelR1. A partir d'aquesta, vam localitzar a la regió d'interès del scaffold 111 el començament i finilatizació de la traducció de SelR1 de Paramecium tetraurelia.
Seqüència completa de SelR1 de Paramecium Tetraurelia
Per comprovar que la proteïna predita efectivament es troba al genoma de Paramecium tetraurelia vam utilitzar una altra vegada el programa exonerate.
Finalment, per observar el percentatge d'homologia entre SelR1 humana i SelR1 de Paramecium vam fer servir el programa ClustalW.
En el cas del genoma de Paramecium tetraurelia, no vam poder córrer el SEISearch per tot el genoma d'un sol cop (com s'ha explicat a Materials i Mètodes) ja que el servidor no funcionava correctament. Després d'hores d'intent, vam decidir córrer el programa sobre fragments del genoma. El procediment a seguir va ser:
Obrir en un emacs el genoma de Paramecium tetraurelia en format multifasta. Seleccionar amb el mouse el 2-3% del genoma de forma recurrent (fins a 3%, fins a 5% agafant del 3 al 5%, etc.) de forma que agaféssim varis scaffolds a la vegada. Copiar els fragments en SECISearch i donar-li a Submit. Seleccionar només els hits amb un score superior a 15. Un cop fet això per tot el genoma, els possibles elements SECIS obtinguts (indicadors de possibles noves selenoproteïnes) van ser els següents: Per manca de temps a l'hora de realitzar el treball, no ens ha estat possible continuar amb l'anàlisi d'aquestes potencials noves selenoproteïnes. A part d'aquestes 10 potencials selenoproteïnes, mitjançant el SECISearch, vàrem trobar les selenoproteïnes que es van obtenir mitjançant el procediment d'homologia amb blast. En el cas de la selenoproteïna de la família DI, es va acceptar un score inferior a 15 ja que hi havia indicis molt clars i determinants (homologia amb DI humanes, predicció de l'estructura gènica amb l'exonerate, TGA al mig de l'ORF, etc) de què en el scaffold_133 hi havia una selenoproteïna pertanyent a la família de les DI.
RESULTATS SECISearch
Scaffold_ 26 / Score: 19'14
Scaffold 29 / Score 22,10
Scaffold_ 51 / / Score 18,44
Scaffold_ 60 / / Score 24,16
Scaffold_73 / / Score 17,36
Scaffold_78 / / Score 15,44
Scaffold_86 / / Score 16,11
Scaffold_114 / / Score 15,33
Scaffold_144 / / Score 33,12
Scaffold_155 / / Score 16,11
Scaffold_ 133 / Score: 13,3
FAMÍLIA DI
Scaffold_11 / Score 21,16
FAMÍLIA TR