L'objectiu d'aquest treball ha estat trobar les selenoproteïnes existents en el genoma de Condylura cristata, així com la maquinària relacionada amb la seva síntesi. Per tal de dur el projecte a terme, s'han utilitzat com a querys selenoproteïnes anotades en els genomes de Mus musculus i Homo sapiens, i partir de diferents programes amb el sistema operatiu Unix, poder predir-les al genoma de Condylura.
Són els diferents programes utilitzats els que permeten dividir en diferents parts aquest treball.
1. Obtenció de les querys
Totes les proteïnes incloent selenoproteïnes, homòlegs amb cisteïna o altres aminoàcids i maquinària de biosíntesis han estat extretes de la base de dades SelenoDB, tant de Mus musculus com d'Homo sapiens. S'ha escollit l'espècie Mus musculus com a referència per la seva proximitat filogenètica; i per altra banda, tenint en compte que no totes les selenoproteïnes d'aquesta espècie estan ben anotades, s'ha agafat també el genoma d'Homo sapiens per contrastar els resultats.
Per tal de realitzar l'anàlisi, s'han hagut de modificar aquelles querys que contenien una selenocisteïna, representada amb una U, ja que alguns dels programes utilitzats no eren capaços d'interpretar-la. Per tant, la U ha estat substituïda per una X.
2. Obtenció del genoma de Condylura cristata
El genoma de l'espècie a analitzar ha estat proporcionat pels professors de l'assignatura. Aquest es troba en el següent directori:
/cursos/BI/genomes/vertebrates/2014/Condylura_cristata/genome.fa |
3. BLAST
Per tal de localitzar selenoproteïnes en el genoma de Condylura, el primer que s'ha de fer és localitzar regions en aquest genoma que siguin susceptibles de contenir la seqüència codificant per la query. Amb aquest objectiu, s'utilitza el programa BLAST (Basic Local Alignment Search Tool).
Aquest és un programa informàtic que alinea localment una seqüència problema (query) amb seqüències provinents d'una base de dades (en aquest cas, seqüències provinents del genoma de Condylura cristata). Per tal de realitzar l'alineament, el programa segueix un algoritme heurístic que selecciona ràpidament les seqüències (hits) amb més homologia respecte la seqüència problema. S'ha de tenir en compte, que el fet d'utilitzar un algoritme heurístic pot comportar la pèrdua de regions amb homologia real que no presenten una similitud molt elevada amb la query introduïda.
Hi ha diferents tipus de blast que permeten alinear diferents tipus de seqüències (DNA, RNA o proteïna) amb una base de dades, d'entre els quals l'utilitzat ha estat tblastn, que permet comparar una query formada per una seqüència proteica amb una base de dades nucleotídica.
L'output proporcionat per aquest programa consisteix en una llista de hits amb el seu e-value i el seu score, valors que s'hauran de tenir en compte per tal de seleccionar els hits òptims. Com menor sigui l'e-value i major el score, més probabilitats hi ha de que el hit trobat contingui la seqüència codificant per la query problema, i per tant, menys probabilitats de que el hit obtingut hagi estat donat per atzar.
A l'hora d'executar aquest programa, s'ha de tenir en compte que se li pot definir un valor d'e-value mínim a partir del qual mostri els hits. En aquest projecte, el mínim ha estat definit com a 10-4, tot i que en alguns casos concrets aquest s'ha hagut de modificar per tal d'obtenir resultats interpretables.
En el cas de tenir múltiples hits amb bons e-values, van ser analitzats tots ells, per tal de després poder destriar el més adequat a partir de la comparació dels resultats amb totes les querys.
Primer de tot, s'ha de definir un path al shell per tal que trobi la carpeta en la qual es localitza el programa:
$ export PATH=/cursos/BI/bin/ncbiblast/bin:$PATH |
$ cp /cursos/BI/bin/ncbiblast/.ncbirc ~/ |
A partir d'aquí, l'ordre donada al shell per tal d'executar el programa és la següent:
$ blastall -p tblastn -i query.fa -d/cursos/BI/genomes/vertebrates/2014/Condylura_cristata/genome.fa -o output.fa |
-p: tipus de blast
-i: ubicació de la query -d: ubicació del genoma de Condylura -p: ubicació que volem donar a l'output (resultats del blast) output.fa: fitxer amb els resultats del blast |
3.1. Extracció de la regió genòmica
Primer de tot, s'ha d'indexar el genoma per tal de poder extreure les regions genòmiques de Condylura on l'alineament proporcionat pel tBLASTn indica que hi ha possibilitat de trobar una selenoproteïna. Per fer-ho, s'utilitza el programa Fastaindex. Aquest organitza el fitxer del genoma en diferents regions, és a dir, organitza els fitxers multifasta a forma indexada per tal de poder extreure les parts a analitzar.
Per a executar aquest programa, l'ordre utilitzada és la següent:
$ fastaindex /cursos/BI/genomes/vertebrates/2014/Condylura_cristata/genome.fa output.index |
output.index: ubicació que volem donar a l'index. |
A continuació, a partir d'aquest index, es procedeix a extreure les regions genòmiques d'interès, definides pels resultats del BLAST, i guardar-les en un fitxer amb format fasta amb el programa Fastafetch. L'ordre utilitzada és la següent:
Per a executar aquest programa, l'ordre utilitzada és la següent:
$ fastafetch /cursos/BI/genomes/vertebrates/2014/Condylura_cristata/genome.fa output.index scaffold > scaffold.fa |
output.index: ubicació de l'index
scaffold: regió que volem extreure scaffold.fa: fitxer fasta que conté la regió extreta |
Aquesta regió extreta pel programa Fastafetch encara és massa gran per tal de poder treballar amb ella amb comoditat. Per aquest motiu, s'ha d'utilitzar el programa Fastasubseq per extreure una zona encara més limitada dins d'aquesta regió. Abans d'executar el programa, es resten 50.000 nucleòtids a la primera posició indicada pel blast i se li sumen 100.000 nucleòtids més la llargada del hit donat pel blast, per tal d'assegurar la presència del gen upstream i downstream. L'ordre utilitzada és la següent:
$ fastasubseq scaffold.fa start length > subseq.fa |
scaffold.fa: resultat del fastafecth
start: nucleòtid inicial – 50.000 lenght: 100.000 nucleòtids + llargada del hit subseq.fa: fitxer fasta que conté la zona de la regió extreta pel fastafetch que conté el gen |
4. Anotació genòmica
4.1. Exonerate
El següent pas consisteix en assegurar que el hit extret es troba en una regió exònica i, que per tant, codifica per una proteïna. Per aquest motiu, es realitzen les anotacions dels gens d'interès amb el programa Exonerate, alineant el fragment de DNA extret amb Fastasubseq amb la query inicial. S'utilitza aquest programa ja que fa alineament de seqüències d’una manera més exacta que el BLAST, i també més informativa ja que indica més característiques del gen (introns, exons, zones d’splicing, etc).
Abans de poder executar el programa, s'ha de definir un path al shell per tal que trobi la carpeta en la qual es localitza:
$ export PATH=/cursos/BI/soft/exonerate/i386/bin:$PATH |
L'ordre utilitzada és la següent:
$ exonerate -m p2g --showtargetgff --exhaustive -q query.fa -t subseq.fa > exonerate.gff |
-m p2g: indica el model d'alineament (en aquest cas proteïna vs genoma) --showtargetgff: indica el format amb el que es generarà el fitxer de sortida --exhaustive: comanda opcional (utilitzada en aquest anàlisi) per tal de tenir en compte també els alineaments subòptims -q: ubicació de la query inicial -t: resultat del subseq -exonerate.gff: alineament aconseguit en format GFF |
4.1.1.FastaseqfromGFF
A continuació s'ha d'extreure la seqüència d'exons obtinguda a partir del Exonerate en format fasta, de manera que s'utilitza el programa FastaseqfromGFF, però abans és necessari saber les posicions dels exons per tal de poder-los extreure. Això es duu a terme amb la funció egrep.
L'ordre utilitzada és la següent:
$ egrep -w exon exonerate.gff > cDNA.gff |
egrep: selecciona les línies on aparegui el patró definit -w exon: patró que es vol buscar (exons) exonerate.gff: fitxer proporcionat per l'exonerate amb la seqüència d'exons cDNA.gff: fitxer de sortida que indica la posició dels exons |
Un cop se saben les posicions dels exons, es pot procedir a extreure'ls amb FastaseqfromGFF. Abans d'executar el programa però, caldrà donar al shell la seva localització:
$ export PATH=/cursos/BI/bin:$PATH |
Després s'executa amb la comanda:
$ fastaseqfromGFF subseq.fa cDNA.gff > cDNA.fa |
subseq.fa: fitxer extret pel fastasubseq cDNA.gff: fitxer de sortida que indica la posició dels exons cDNA.fa: fitxer de sortida en format fasta |
4.1.2. Fastatranslate
Per tal de poder realitzar un tercer alineament amb el programa t-coffee i genewise caldrà traduir la seqüència extreta amb els passos anteriors a proteïna. Per fer-ho s'utilitza el programa Fastatranslate. S'executa amb la comanda:
$ fastatranslate cDNA.fa > translate.mfa |
L'arxiu de sortida (translate.mfa) conté tots els marcs de lectura possibles per la seqüència en format multifasta. L'arxiu conté sis seqüències fasta, que corresponen a les sis pautes de lectura possibles (tres forward i tres reverse) de les quals s'ha de seleccionar el marc de lectura que correspongui. Per això es pot afegir l'ordre -F seguit pel nombre de nucleòtids pel que volem que comenci la lectura.
$ fastatranslate cDNA.fa -F X > translate.fa |
X: lloc on escriure el marc de lectura que es vol extreure. |
4.2. T-COFFEE
Un cop la seqüència ha estat traduïda a proteïna, és a dir, no té introns i es troba en forma de seqüència d'aminoàcids, ja es pot fer un alineament d'aquesta amb la query, i d'aquesta manera determinar la presència o absència d'homologia entre les dues seqüències. Per poder dur a terme aquest alineament s'utilitza el programa T-coffee (Tree-based Consistency Objective Function for alignment Evaluation). Aquest programa permet fer alineaments múltiples de proteïna, DNA i RNA.
Abans d'executar el programa caldrà donar al shell la seva localització:
export PATH=/cursos/BI/soft/t_coffee/i386/bin:$PATH |
S'executa amb la comanda:
$ t_coffee query.fa translate.fa > t_coffee.fa |
t_coffee.fa: fitxer de sortida amb l'alineament entre les dues seqüències |
4.3. Genewise
Per tal de contrastar els resultats obtinguts amb l'Exonerate i el t-coffee, es pot utilitzar un programa alternatiu, com ara el Genewise, que genera una nova anotació del gen utilitzant un algorisme diferent al Exonerate.
Abans d'executar el programa caldrà donar al shell la seva localització:
$ export PATH=/cursos/BI/soft/genewise/i386/bin:$PATH |
$ WISECONFIGDIR=/cursos/BI/soft/genewise/i386/wise2.2.0/wisecfg/ |
S'executa amb la comanda:
$ genewise -pep -pretty -cdna -gff -both query.fa subseq.fa > genewise.gff |
-pep: mostra el fitxer de sortida de la seqüència peptídica predita -pretty: mostra l'alineament -cdna: mostra la seqüència genòmica alineada -gff: resultat en format gff -both: realitza la predicció en sentit forward i reverse genewise.gff: fitxer de sortida |
5. Automatització
Per tal de realitzar el procés d'anotació anterior de forma automatitzada s'han desenvolupat dos programes. El primer, escrit en bash executa els exports (escrit en bash ja que les comandes es vol que siguin directament executades al shell). A part crida el segon programa, escrit en perl, que executa tots els programes anteriorment descrits per una sola query que s'ha d'especificar des del shell.
Així doncs el programa analitzarà, donada una query, si aquesta es troba al genoma de Condylura cristata, especificant en cada moment quin pas s'està realitzant, i donant l'opció de realitzar o saltar-se cada pas, o bé saltant-se'l automàticament si el fitxer que ha de crear en aquell moment ja existeix.
Per tal que els programes funcionin cal que es trobin els dos a la mateixa carpeta, i a més a més que aquesta carpeta contingui tan sols la query que es vol analitzar en aquell moment. Així doncs, per poder utilitzar-los, s'ha hagut de crear una carpeta per cada query analitzada, dins de la qual es guarden tots els fitxers generats amb un nom que especifica de quin pas són resultat.
Tot i que el programa ha estat preparat per poder executar el Genewise per cada query, aquest no ha donat resultat en cap cas.
6. Cerca d'elements SECIs
Per a assegurar que la predicció de selenoproteïnes és correcta, es pot fer una cerca d'elements SECI en la seqüència, ja que aquests són estructures essencials per a la síntesi de selenoproteïnes, els quals es troben en la regió 3'-UTR dels gens que les codifiquen.
Per tal de predir els elements SECIs, s'han utilitzat dos programes online: SECISearch3 i Seblastian, per poder contrastar els resultats d'un amb els de l'altre. Per fer-los servir, s'ha pujat el document de sortida del fastasubseq (subseq.fa) i s'ha extret l'output.