Materials i mètodes:
En aquest apartat detallarem el mètode que hem seguit per tal de cercar selenoproteïnes en un grup de protists així com el seguit de comandes i programes emprats per a dur-ho a terme. El sistema operatiu emprat ha estat Linux, versió Fedora Core. Les comandes emprades en aquest treball seran vàlides per al shell de UNIX.
1.- Obtenció de les seqüències de les selenoproteïnes
Les seqüències de selenoproteïnes (a partir d'ara també anomenades "query" o "queries") de Sel15 van ser obtingudes de les queries emprades en treballs d'anys anteriors en el que buscaven la mateixa selenoproteïna. També es va emprar una query d' Homo sapiens obtinguda de la base de dades SelenoDB tot i que aquesta sempre va donar resultats menys significatius que les altres seqüències. Les de SelP i SelL van ser extretes d'NCBI i SelenoDB.
2.- Obtenció del genoma dels protists
Els genomes dels organismes exposats a l'introducció van ser facilitats pel professorat de l'assignatura de Bioinformàtica.
3.- Alineament de seqüències genòmiques
Per a localitzar la regió genòmica on potencialment puguin trobar-se les nostres selenoproteïnes hem emprat el programa BLAST (Basic Local Alignment Search Tool), en concret el tipus tBLASTN.
Aquest procés l'hem repetit per a cada una de les queries contra cadascun dels genomes. La comanda usada en el nostre cas va ser:
$ blastall -p tblastn -i selenoproteina.fa -d genoma.fa -o outputresultattblastn_sense_m9.txt
$ blastall -p tblastn -i selenoproteina.fa -d genoma.fa -m9 -o outputresultattblastn_m9.txt
En el fitxer resultant del tBLASTN vam rebutjar aquells alineament que presentessin un E-value major que 1x10-4 però amb matissos: també ens vam fixar en l'alineament. Si el residu de selenocisteïna de la query es trobava alineat amb un codó stop (representat amb un símbol "*") o bé una cisteïna, continuavem el procés. Aquesta decisió de continuar és per descartar que el genoma emprat estigui mal anotat i una possible selenocisteïna estigui representada com un codó stop; o bé, que ens trobem davant d'un homòleg en cisteïna.
La comanda amb l'ordre -m9 ens presenta els resultats en forma de coordenades. Ens facilitarà el procés més endavant.
Aquest pas era molt repetitiu i vam decidir automatitzar-lo amb el següent programa, que podeu descarregar fent clic aquí, o veure fent clic aquí.
El fitxer amb nom "query_celegans.fa" fa referència al fitxer que conté la nostra query, per tant si volem fer servir un altre query només cal canviar aquest nom de fitxer al bash pel nom de fitxer que tingui la nova query.
4.- Extracció de les regions genòmiques corresponents a les seqüències de potencials selenoproteïnes
Un cop trobats els alineaments que potencialment poden ser selenoproteïnes (els anomenem també hits), procedim a extreure la regió genòmica en un fitxer en format fasta. Això ho fem amb els programes fastafetch i fastasubseq. En el nostre cas hem emprat les següents comandes:
$ fastafetch genome.fa genome.index “identificador de la seqüència en que es troba” > candidat.fa
$ fastasubseq candidat.fa inici longitud > subsequenciacandidat.fa
Notes:
1)El lloc d'inici l'extreus del fitxer obtingut al primer pas del protocol a partir de la comanda amb l'ordre -m9. Nosaltres li restàvem entre 500 i 1000 bases per assegurar-nos que agafàvem la seqüència gènica sencera.
2)La longitud també l'escollíem de manera arbitrària. Usàvem el valor 50.000.
Amb aquestes dues comandes aconseguim tenir en fitxer fasta una seqüència de 50.000 bases que conté el hit.
5.- Extracció de la regió exònica mitjançant Exonerate i Genewise
Un cop hem extret la seqüència genòmica on creiem que pot haver una selenoproteïna passem a usar l’Exonerate per tal d’obtenir el cDNA. Amb aquest programa obtindrem la seqüència exònica. Vam usar la comanda següent:
exonerate -m p2g --showtargetgff -q selenoproteina.fa -t subsequenciacandidat1.fa > exoneratecandidat1.txt
En cas d’obtenir un resultat no desitjat en l’Exonerate, farem un Genewise.
En cas d’obtenir un bon Exonerate emprarem aquesta segona comanda per obtenir només les regions exòniques en un fitxer a part:
exonerate -m p2g --showtargetgff -q selenoproteina.fa -t subsequenciacandidat1.fa | egrep -w exon > cDNAcodificantperlaselenoprot.exonerate.gff
Amb la següent comanda obtindrem un fitxer que conté només el cDNA:
fastaseqfromGFF.pl subsequenciacandidat1.fa (fitxer obtingut a fastasubseq) cDNAcodificantperlaselenoprot.exonerate.gff (obtingut amb exonerate)>cDNA.fa
I amb el fastatranslate aconseguirem traduir el cDNA a proteïna:
$ fastatranslate -F 1 cDNA.fa > proteina.fa
Quan l’Exonerate no ens dóna el resultat esperat passem a utilitzar Genewise amb la següent comanda:
$ genewise -pep -pretty -cdna -gff query.fa fastasubseq.fa > genewise
I per a seqüències que es troben en la reverse strand utilitzarem:
$ genewise -pep -pretty -cdna -gff -trev query.fa fastasubseq.fa > genewise.fa
6.- Alineament de la seqüència proteica obtinguda amb la query inicial mitjançant T-Coffee
t_coffee queryinicial.fa sequenciaobtinguda.fa
Nota: És important canviar els asteriscs per X ja que el programa T-Coffee no reconeix aquest caràcter.
7.- Cerca d’elements SECIS (Selenocysteine Insertion Sequence)
Per a trobar els elements SECIS utilitzarem el programa SECISearch. Els elements SECIS es troben en l’extrem 3’UTR de l’mRNA. Haurem d’indicar al programa si la seqüència que li demanem que analitzi és forward o reverse. La resta de paràmetres els podem deixar tal i com estan per defecte. Considerarem que la predicció és significativa sempre que l’score sigui superior a 15.
8.- Comprovació contra base de dades de NCBI
Per a estar segurs de si realment els resultats corresponen amb la realitat, posem el resultat dels nostres alineaments al BLAST (blastp) de NCBI. Si entre els resultats es troba la selenoproteïna que estem esperant ens dóna més seguretat que els resultats són correctes i es corresponen amb la realitat.
9.- Altres
Donades les característiques de la Selenoproteïna L vam realitzar un arbre filogenètic mitjançant PylML (disponible a http://www.atgc-montpellier.fr/phyml/). Un programa on-line que realitza arbres filogenètics tant entre seqüències de DNA com entre seqüències d'aminoàcids basant-se en el principi de màxima similaritat.
En una espècie l'Exonerate i el Genewise no ens van donar resultats satisfactoris tot i que vam observar en el tBLASTN un alineament entre una "X" de la query i un asterisc ("*"). Per veure si l'asterisc (codó stop) era un TGA (possible confusió amb una selenocisteïna) o un altre vam usar el programa ExPASy al qual li donàvem el fragment de DNA que contenia l'asterisc i ens tornava totes les possibles pautes de lectura. La que corresponia a l'alineament del tBLASTN va ser la que vam seleccionar. D'aquesta manera vam trobar el codó corresponent a l'stop.