Abstract | Introducció | Materials i Mètodes | Resultats | Discussió | Bibliografia |
Índex
A continuació es mostra el protocol que va sorgir de les sessions d'abp, previ a l'inici de les sessions pràctiques del treball. Tot i que posteriorment l'hem anat modificant segons els imprevists que han anat sorgint, hem cregut que és interessant plasmar el procediment inicial que pensàvem seguir:
Obtenir la seqüència de dita espècie, utilitzant bases de dades com NCBI, UCSC, Ensembl, i d'altres més específics com ParameciumDB.
Baixar totes les seqüències de les selenoproteïnes conegudes, així com també la maquinària de síntesi. Hem decidit utilitzar les selenoproteïnes humanes perquè és l'espècie que té gairebé totes les selenoproteïnes conegudes. Aquestes seqüències les obtenim de la base de dades SelenoDB.
Utilitzar tblastn per buscar homologies entre el genoma problema (seqüència nucleotídica) i cadascuna de les selenoproteïnes conegudes i la maquinària de síntesi (seqüència aminoacídica). Primer, començarem buscant la maquinària de síntesi de les selenoproteïnes i si la trobem, buscarem les selenoproteïnes. Utilitzem aquest tipus de BLAST perquè creiem que hi haurà més conservació entre seqüències d'aminoàcids que no pas entre seqüències de nucleòtids. El codi genètic està degenerat, de manera que en comparar espècies tan separades evolutivament hi haurà més divergència entre les seqüències de nucleòtids que en les d'aminoàcids. Per aquesta raó, comparem proteïnes. Aquest BLAST fa alineaments locals, els quals necessitem per dos motius: les espècies no són filogenèticament properes i ens interessa trobar dominis conservats.
Amb els resultats obtinguts de l'alineament, escollirem aquells alineaments que contenen una U (Sec) alineada amb un codó Stop (que sigui TGA) o amb una cisteïna del nostre genoma problema.
Per obtenir la seqüència genòmica que correspon a la nostra proteïna farem un programa en Perl que ens mostri la seqüència que es troba entre la primera posició del primer exó (que hem identificat nosaltres) i l'última posició de l'últim exó, més uns 1500-2000 pb. Dins aquests últims pb hauria d'estar l'element SECIS característic de tota selenoproteïna. Hem triat aquest nombre de pb considerant 500 pb un número restrictiu (Castellano, S. In silico identification of novel selenoproteins in the Drosophila melanogaster genome) i observant a SelenoDB la distància mitjana entre el final de la proteïna i els elements SECIS.
Per predir l'estructura real del gen (exons + introns) utilitzarem programes com l'Exonerate. D'aquesta manera podrem tenir la seqüència real d'aminoàcids de la nostra proteïna i comparar-la amb la selenoproteïna coneguda per tal d'observar la conservació que existeix entre elles.
En el cas de no trobar selenoproteïnes homòlogues a les conegudes en el nostre genoma problema, procediríem a fer el següent:
Córrer el SECISearch sobre tot el genoma, tant a nivell de seqüència primària com a nivell d'estabilitat termodinàmica.
Utilitzar el BLAST per comparar la seqüència candidata (la qual conté l'element SECIS) amb espècies properes evolutivament. D'aquesta manera, volem filtrar la gran quantitat de candidats obtinguts mitjançant un criteri evolutiu. Considerarem com a possibles candidates a ser selenoproteïnes aquelles seqüències conservades entre les espècies blastejades.
Identificar ORFs i llocs de splicing. Si els candidats es troben anotats en ORF o dins d'introns també els obviarem. Així intentem acotar al màxim el nombre de candidats a ser selenoproteïnes.
A continuació trobem el protocol general realitzat. A l'apartat de Resultats detallem els passos específics realitzats per a cadascuna de les proteïnes analitzades:
Primer, vam accedir a la pàgina del NCBI amb la finalitat d'aconseguir informació sobre el genoma del nostre organisme a estudiar, el Paramecium tetraurelia; tot i així, cal dir que el genoma no el vàrem extreure d'aquí, sinó que ens el van proporcionar els mateixos professors des de: $/disc8/genomes/P.tetraurelia/genome.fa Un cop ja dins el NCBI, la nostra sorpresa va ser que aquest organisme presenta un codi genètic una mica diferent de l'estàndard; concretament, els codons UAA i UAG que codifiquen normalment per a codó Stop, en Paramecium tetraurelia tots dos codifiquen per a l'aminoàcid àcid glutàmic (Glu o Q). Per aquest motiu, hem hagut de fer servir la comanda –Q 6 en el shell cada vegada que volíem treballar amb el genoma del nostre organisme. D'altra banda, també vàrem haver d'accedir a la base de dades SelenoDB per tal de baixar–nos totes les seqüències en format FASTA de les proteïnes humanes conegudes, així com també les seqüències de la maquinària de síntesi. Cadascuna d'aquestes seqüències baixades, les vàrem guardar fent un emacs: $ nom_selenoproteïna_humana.fa El següent pas va consistir en fer un tblastn de cada selenoproteïna humana i de cada maquinària de síntesi contra el genoma de Paramecium tetraurelia. Per aconseguir-ho, vàrem fer anar la següent ordre al shell: $ blastall –p –Q 6 tblastn –i nom_selenoproteïna_humana.fa –d /disc8/genomes/P.tetraurelia/genome.fa> Mitjançant aquesta comanda podíem guardar l'aliniament entre les dues seqüències d'aminoàcids mentre que amb una altra comanda podíem guardar l'alineament en forma de taula. $ blastall –p –Q 6 tblastn –i nom_selenoproteïna_humana.fa –d /disc8/genomes/P.tetraurelia/genome.fa –m 9 A partir de cada taula, ens vàrem fixar únicament en aquells scaffolds de P.tetraurelia que presentaven un valor de e-value més petit o igual que 1.0. A més, aquests scaffolds havien de formar part d'un aliniament interessant. És a dir, que la selenocisteïna humana (U) estigués aliniada amb un codó Stop (*) o amb una cisteïna (C) de P.tetraurelia, o bé que la cisteïna humana estigués aliniada amb una cisteïna de P. tetraurelia. Cada vegada que volíem seleccionar un scaffold d'interés havíem de fer anar la següent comanda: $ perl ~/Desktop/FastaToTbl.pl /disc8/genomes/P.tetraurelia/genome.fa | awk ‘$1==“scaffold_número”’ | perl ~/Desktop/TblToFasta.pl > nom_selenoproteïna_scaffold_número.fa.> Per a cadascun dels scaffolds seleccionats, la taula anterior també mostrava l'inici i el final en què hi havia hagut més homologia en l'aliniament. Ara bé, en aquells casos en què l'inici fos més gran que el final (perquè la seqüència estava girada), vàrem haver de fer anar la comanda: $ fastarevcomp nom_selenoproteïna_scaffold_número.fa > nom_selenoproteïna_scaffold_número_revcomp.fa A continuació, vàrem extreure un fragment de cadascun dels scaffolds seleccionats agafant aproximadament uns 1000 nucleòtids abans de l'inici (– s) més uns 3000 nucleòtids a partir d'aquests (– l 3000), de tal manera que el tros tallat també contingués des de l'inici fins el final del fragment que el blast havia mostrat amb més homologia. Això últim ho vàrem aconseguir mitjançant la comanda: $ fastasubseq –f nom_selenoproteïna_scaffold_número.fa –s 5472001 –l 3000 > nom_selenoprote&ium;na_scaffold_número_5472001-5475000.fa. Una vegada seleccionat el fragment del scaffold d'interès havíem de predir l'estructura real del gen que codificaria per a la proteïna, és a dir els exons i els introns. Vàrem utilizar el programa GeneWise, el qual compara una seqüència proteica amb una seqüència d'ADN i indica els potencials exons i introns, així com la seqüència aminoacídica i els codons codificants. El problema va ser que els resultats obtinguts amb aquest programa no eran significatius ni raonables. Per aquesta raó vam provar d'utilitzar el programa Exonerate des del shell amb les comandes: $ which exonerate $ exonerate –m p2g –q Selenoproteïna_humana.fa – scaffold_dinterès.fa Cal mencionar que al realitzar el blast i altres tipus d'alineaments, obtenim més codons stop (*) del que seria habitual ja que el codi genètic de Paramecium és diferent al codi genètic estàndard. D'aquesta manera vàrem obtenir una estructura del gen d'interès i una seqüència aminoacídica. A partir d'aquí, amb la comanda fastatranslate vàrem traduir, per separat, cada exó predit. Per tal d'obtenir la seqüència codificant completa, al NCBI vam fer un blast d'aquest fragment de potencial proteïna contra els mRNAs de Paramecium tetraurelia. Vam localitzar la seqüència obtinguda al scaffold d'interès i vam trobar el començament i final de la proteïna (codó metionina i Stop), així com els introns i exons predits a l'Exonerate. Si la proteïna a estudiar es tractava d'una selenoproteïna, també vam localitzar l'element SECIS. Per finalitzar, vam traduir la seqüència completa i vam localitzar el codó Stop o bé la Cys que al començament s'alineaven amb la U de la selenoproteïna humana. Per comprovar que la identitat de la proteïna predita era del 100%, vam realitzar un tblastn de la proteïna de Paramecium tetraurelia contra tot el genoma d'aquest organisme. D'aquesta forma, podem afirmar que la proteïna està present a Paramecium tetraurelia.
Per finalitzar, com a últim pas de tots, vam utilitzar el Clustalw per observar el percentatge d'identitat entre la proteïna de Paramecium i la humana. El Clustalw és un dels programes d'alineament de seqüències més conegut. L'algoritme que utilitza fa alineaments globals, és a dir, considera la similitud en tota l'extensió de les seqüències, contràriament al que fa el Blast.
Hi ha dos mètodes per buscar selenoproteïnes. El primer, consisteix en blastejar el genoma de l'organisme del qual vols trobar les proteïnes contra una selenoproteïna coneguda d'un altre organisme. Amb aquest mètode (l'explicat fins ara) vàrem trobar les selenoproteïnes de Paramecium tetraurelia que són homòlogues a aquelles d'altres organismes contra les quals s'havia fet el Blast. El segon mètode, serveix per trobar noves selenoproteïnes que no tenen homòlegs en cap dels organismes contra els quals es blasteja. Com s'ha explicat a la introducció, les selenoproteïnes tenen certes característiques que les permet identificar. En mig del gen, tenen un codó Stop TGA que codifica per selenocisteïna (U) seguit (a una distància de 500-4000pb) per un element SECIS col·locat en 3’ en la regió no codificant. Mitjançant el programa SECISearch es pot analitzar tot un genoma per la cerca d'elements SECIS. SECISearch és un programa que recorre tot el genoma d'un organisme buscant possibles elements SECIS (ja que contenen uns nucleòtids conservats i tenen una estructura secundària/terciària característica de doble loop). De tots els possibles SECIS, te'n dóna una puntuació de la qual et recomana no tenir en compte aquelles inferiors a 15. Així doncs, els passos a seguir per utilitzar SECISearch són:
Obtenir la seqüència del genoma de l'organisme en format MULTIFASTA. En el SECISearch, deixar les caselles marcades per defecte (patró ATGA, filtres, etc.). Adjuntar la seqüència genòmica. Utilitzar Navega per tot el genoma o adjuntar-lo a mà si només es vol mirar un gen, contig, etc. Marcar l'opció Submit. De tots els hits trobats, cal fixar-se només en aquells que tenen un score (puntuació) superior a 15 (a no ser que hi hagi evidències que facin acceptar hits amb puntuacions menors).