L’objectiu del nostre projecte és anotar totes les selenoproteïnes del genoma de Rousettus aegyptiacus, i per aquest motiu s’utilitza com a genoma de referència el del megabat (Pteropus vampyrus), les selenoproteïnes del qual ja han estat estudiades. A més, s’han estudiat les selenoproteïnes d’altres espècies més allunyades en l’arbre filogenètic com són el gat (Felis catus), el gos (Canis lupus familiaris) i el cavall (Equus caballus).
Per fer aquest estudi s’ha dissenyat un programa customitzat amb llenguatge de programació Perl (selprot.pl ) per tal de predir a partir d’un query d’una espècie propera (ex: Pteropus vampyrus), la selenoproteïna corresponent en Rousettus aegyptiacus
Per a adquirir els queries del genoma de Pteropus vampyrus s'ha utilitzat la base de dades de selenoproteïnes SelenoDB 2.0 , de la qual s’han extret les selenoproteïnes i proteïnes de la maquinària de Rousettus aegyptiacus. En el cas de no aconseguir el query d’alguna selenoproteïna o proteïna de la maquinària, aquest s’ha extret de Felis catus, Canis lupus familiaris o Equus caballus. Es genera un arxiu .fa amb la proteïna i es substitueix la U per una X en el cas de les selenoproteïnes.
El genoma de l’espècie estudiada, Rousettus aegyptiacus, va ser proporcionada pels coordinadors de l’assignatura de Bioinformàtica (20428) del Grau de Biologia Humana de la Universitat Pompeu Fabra (UPF) i es troba en el seguent directori en els ordinadors de la Facultat de Ciències de la Vida i de la Salut de la UPF:
/cursos/20428/BI/genomes/2016/Rousettus_aegyptiacus/genome.fa
Es va modificar el fitxer d’inicialització del terminal (.bashrc) introduint les següents comandes per tal d’instal·lar els diferents programes necessaris per a realitzar la predicció:
module load modulepath/goolf-1.7.20
module load BLAST+/2.2.30-goolf-1.7.20
module load Exonerate/2.2.0-goolf-1.7.20
module load T-Coffee/11.00.8cbe486-goolf-1.7.20
export PATH=/cursos/20428/BI/bin:$PATH
export PATH=/cursos/20428/BI/soft/genewise/x86_64/bin:$PATH
export WISECONFIGDIR=/cursos/20428/BI/soft/genewise/x86_64/wise2.2.0/wisecfg/
S’utilitza un algoritme anomenat BLAST (Basic Alignment Search Tool), que serveix per comparar cada un dels queries trobats a SelenoDB amb el genoma d’interès. Aquest utilitza un algorisme heurístic que troba les seqüències amb més homologia respecte la seqüència problema, anomenades hits. Segons els diferents tipus de seqüències que es poden comparar (DNA, RNA, proteïna), existeixen diverses modalitats de BLAST. S’ha utilitzat el tblastn, que permet comparar un query (constituit per una seqüència proteica) amb una base de dades nucleotídica, db (en el nostre cas serà el genoma de R. aegyptiacus). Establint l’E-value a 0,05 filtrarem els resultats per obtenir només aquells hits significatius.
La comanda utilitzada va ser:
$ tblastn -query query -db db -evalue 0.05 -out query.blast
El fitxer de sortida conté els diferents hits de la proteïna continguts en diferents scaffolds. S’ha seleccionat el hit en funció de si conté un alineament correcte de * amb X. En cas de no trobar cap hit o trobar-ne diversos que compleixin aquesta condició s’escull el que té un E-value més baix i un bit score més alt.
S’utilitza la següent comanda per extreure la seqüència d’interès, que serà l’scaffold que conté el hit que s’ha seleccionat després del BLAST.
$ fastafetch db db_index nomscaffold > nomscaffold.fa
db_index serà la variable que haurem assignat a la URL on es troba el genoma de la nostra espècie "/cursos/20428/BI/genomes/2016/Rousettus_aegyptiacus/genome.index"
S’extreu la regió genòmica que potencialment conté el gen que s’està buscant dins l’scaffold que s’ha seleccionat prèviament. S’agafen unes 200.000 posicions al voltant del hit per assegurar que s’inclou tota la regió genòmica d’interès (exons i introns). L’alineament que fa el BLAST només considera les regions codificants del genoma d’interès. Però, el gen també conté regions no codificants (introns).
$ fastasubseq nomscaffold.fa start diff > nomscaffold.seq
Permet fer una comparació “pairwise” entre dos seqüències, i indica també els exons. L’output es filtra a través de l’egrep per seleccionar només els exons.
$ exonerate -m p2g --showtargetgff -q query -t nomscaffold.seq | egrep -w exon > query.exonerate.gff
S’espera que on tenim una selenocisteïna en la predicció trobem un codó STOP. Per assegurar que el codó STOP correspongui amb la selenocisteïna, podem optar per canviar el * del fitxer query.pred.prot per una U i així podrem observar un correcte alineament en l’output del t-coffee.
$ fastaseqfromGFF.pl nomscaffold.seq query.exonerate.gff > query.cdna
$ fastatranslate query.cdna > query.prot
T-Coffee permetrà fer un alineament global del query amb la proteïna predita (query.pred.prot, que contindrà la millor predicció de totes aquelles obtingudes a query.prot).
$ t_coffee query query.pred.prot > query.t_coffee
S’espera que on tenim una selenocisteïna en la predicció trobem un codó STOP. Per assegurar que el codó STOP correspongui amb la selenocisteïna, podem optar per canviar el * del fitxer query.pred.prot per una U i així podrem observar un correcte alineament en l’output del t-coffee.
L’element SECIS és un motiu estructural de RNA que es troba a l’extrem 3’-UTR de la seqüència als eucariotes, i és un component indispensable per poder considerar a una selenoproteïna com a tal. Per a predir-los, s’ha utilitzat el SECISearch3, que permet obtenir seqüències de DNA que corresponen als elements SECIS de les diferents espècies. A continuació, s’analitzen amb Seblastian aquelles proteïnes que havien conservat la selenocisteïna en la nostra espècie per trobar una predicció de selenoproteïna