Materials i mètodes
1. Obtenció dels queries
Per a cada família de selenoproteïnes (Lmsel1, Sel4, SelT), obtenim la seva seqüència aminoacídica la qual utilitzarem com a query. Aquestes seqüències les hem obtingut de dos bases de dades: selenoDB i NCBI. Concretament, per Lmsel1 i Sel4, tenim només un query per cada família els quals ens han estat facilitats pels professors; mentre que per SelT hem trobat diversos queries corresponents a espècies diferents.
2. Cerca de les selenoproteïnes als genomes
El nostre objectiu és esbrinar si els 13 genomes problema contenen la seqüència corresponent a les 3 selenoproteïnes donades: Lmsel1, Sel4 i SelT. Per fer-ho, hem utilitzat les següents comandes:
1. Per poder utilitzar tots els programes que necessitarem al llarg del treball, primer de tot hem de introduir les següents comandes al shell:
$ export PATH=/cursos/BI/bin/ncbiblast/bin:$PATH
$ cp /cursos/BI/bin/ncbiblast/.ncbirc~/
$ export PATH=/cursos/BI/bin/exonerate/i386/bin:$PATH
$ export PATH=/cursos/BI/bin:$PATH
$ export WISECONFIGDIR=/cursos/BI/soft/wise-2.2.0/wisecfg
2. L'objectiu ara és trobar els millors alineaments entre les nostres selenoproteïnes i els 13 genomes, i per fer-ho cal utilitzar el tblastn. La comanda aplicada és:
$ blastall -p tblastn -i selenoproteïna.fa -d genome.fa -o selenoprot_protist_tblastn.fa
Aquesta comanda l'hem realitzat amb i sense -m9. Aquesta opció ens permet visualitzar una llista dels millors hits amb un e-value inferior al determinat per nosaltres, sense -m9, en canvi, podrem observar també els alineaments de cada hit amb els genomes fet que ens interessarà més endavant a l'hora d'interpretar els resultats.
3. Un cop trobats els millors hits (e-values inferiors a 0,0001) el següent pas és extreure les regions dels genomes on hem trobat les homologies, i això ho farem amb els programes Fastaindex, Fastafetch i Fastasubseq, les comandes utilitzades són:
$ fastaindex genome.fa genome.index
$ fastafetch genome.fa genome.index 'nomidentificador/contig' > selenoprot_protist_nomidentificador/contig.fa
$ fastasubseq selenoprot_protist_nomidentificador/contig.fa start length > selenoprot_protist_fastasubseq.fa
4. A continuació hem utilitzat el programa Exonerate per tal de determinar on estan els exons i les seves característiques (allargada, inici...) en les regions extretes anteriorment. La comanda que hem fet servir és la següent:
$ exonerate -m p2g --showtargetgff -q selenoproteïna.fa -t selenoprot_protist_fastasubseq.fa | egrep -w exon > selenoprot_protist_exonerate.gff
Paral·lelament, hem utilitzat el programa Genewise el qual ens permet fer el mateix que el exonerate però ens dóna directament el cDNA i la proteïna. La comanda que hem utilitzat és la següent:
$ genewise -pep -pretty -cdna -both -gff selenoproteïna.fa selenoprot_protist_fastasubseq.fa > selenoprot_protist_genewise.gff
A partir d'aquí, hem de triar l'anotació d'un dels dos programes i continuar.
5. Seguidament, si triem els resultats obtinguts d'Exonerate, executem el programa FastaseqfromGFF.pl el qual és un programa perl que permet obtenir el cDNA de les seqüències seleccionades en el pas anterior. Ho hem fet mitjançant la comanda següent:
$ fastaseqfromGFF.pl selenoprot_protist_fastasubseq.fa selenoprot_protist_exonerate.gff > selenoprot_protist_exoneratecdna.fa
Aquest pas només és necessari en el cas d'haver triat els resultats donats per Exonerate, ja que en el cas de Genewise ja ens dóna directament el cDNA.
6. Continuant amb els resultats obtinguts de l'exonerate, a continuació hem fet servir el programa Fastatranslate el qual ens permet traduir el cDNA a proteïna però en totes les pautes de lectura possibles. La comanda utilitzada és:
$ fastatranslate selenoprot_protist_exoneratecdna.fa > selenoprot_protist_fastatranslate.fa
De les 6 pautes de lectura triem aquella que impliqui 1 o cap asterisc el qual ens mostra la presència d'un codó stop.
7. Finalment, hem de comparar la seqüència d'aminoàcids obtinguda (del genewise o del fastatranslate) amb la selenoproteïna query, i això ho fem amb el programa TCoffee. La comanda utilitzada és:
$ t_coffee selenoproteïna.fa selenoprot_protist_ORFseleccionat.fa > selenoprot_protist_tcoffe.fa
8. Per determinar que el hit trobat és una selenotproteina s'ha de cumplir que:
- Hi hagi una bona homologia entre aquesta sequència i el query (l'alineament tingui un score alt)
- La U o la C important del nostre query coincideixi amb un codó stop UGA
Tot i així, per corroborar els nostres resultats i poder estar més segurs de que realment hem trobat una selenoproteïna en un genoma en concret, hem fet un BLASTP de la seqüència de la suposada selenoproteïna contra una base de dades com NCBI. L'objectiu és que la seqüència trobada ens permeti trobar selenoproteïnes de la mateixa família en altres espècies i amb uns bons e-values.
3. Cerca d'elements SECIS i la màquinària
9. Finalment, per acabar d'arrodonir-ho tot, hem volgut buscar en cada genoma on hem trobat la selenoproteïna, altres elements indispensables per la síntesis de les selenoproteïnes:
- Elements SECIS: per poder cercar els elements SECIS vam utilitzar aquesta web: SECISearch
- Components de la maquinària de síntesis com SPS2, eEfsec, SecS i PSTK.Per poder-ho fer hem realitzat les mateixes comandes utilitzades en la cerca de selenoproteïnes.
Com funciona el programa SECISearch?
SECISearch és un software dissenyat per la cerca d’elements SECIS dins d’un determinat fragment de DNA. Nosaltres hem decidit utilitzar la versió web (versió 2.19) en comptes de la versió perl, ja que és una mica més completa (de fet són dos programes una mica diferents, que donen resultats similars).
L’input del programa SECIS ha de ser una seqüència de DNA que ha de contenir el gen de la selenoproteïna en qüestió, més un gran nombre de nucleòtids situats a la regió 3’ del mRNA del gen que es vol estudiar. El programa conté informació sobre el RNA folding (extret de la Vienna RNA Package) que combina amb l’input de DNA per fer una predicció de la regió nucleotídica que formarà l’element SECIS en qüestió.
L’output del programa proporciona informació sobre la regió nucleotídica on es troba l’element SECIS respecte del gen de la selenoproteïna, així com també d’un valor numéric anomenat COVE score. Aquest valor simbolitza la probabilitat de que la predicció sigui real. Valors de COVE score alts signifiquen una bona fiabilitat, és a dir, una alta probabilitat de que l’element SECIS que ha predit el programa existeixi i es trobi situat a la regió que descriu el programa.
A més a més, l’output també proporciona una imatge representativa de l’estructura secundària de l’element SECIS.
SECISearch compte amb una sèrie de patrons i filtres que permeten modelar el grau d’exigència en la cerca de selenoproteïnes. El patrons s’expressen en funció de paràmetres energètics i s’il·lustren a la següent taula:
Paràmetres enèrgetics | ||
Patró | Energia de l' estructura del core | Energia estrucutral total |
Strict | -8.5 | -15.0 |
Default | -3.7 | -12.6 |
Loose | -3.7 | -12.6 |
Loose(+non-canon.) | -3.7 | -12.6 |
El paràmetre strict és el més exigent de tots, i per tant, el més fiable en cas d'obtenir resultat positiu o hit. Amb el paràmetre loose és més fàcil obtenir hits però la fiabilitat dels mateixos disminueix, fent possible l'aparició de falsos positius.