Materials i Mètodes

L'objectiu del nostre estudi és buscar les selenoproteïnes, i la maquinària necessària per a que es transcriguin, en el genoma de Sarcophilus harrisii. En aquest apartat es detalla el mètode que hem fet servir per realitzar aquesta cerca, especificant les comandes bàsiques per al shell de UNIX utilitzades.

Tot i això, per tal d'agilitzar el procés hem realitzat algunes automatitzacions.

Obtenció de les querys

Les nostres querys (o seqüències que volíem comprovar si hi eren) han estat des d'un inici tan les selenoproteïnes conegudes (i que podrien tenir alguna relació amb el nostre organisme), així com també les proteïnes de la maquinària necessàries per a la síntesi de les selenoproteïnes. Per tant, tot el procés l'hem aplicat a tots dos tipus de proteïnes.

La major part de les querys utilitzades les vam obtenir de la base de dades SelenoDB. L'organisme més complet en aquesta base de dades és l'Homo sapiens i, tenint en compte que aquest es troba a la mateixa distància evolutiva (o inferior) que els altres organismes presents a la mateixa base de dades, hem utilitzat les proteïnes d'aquesta espècie com a querys.

Tot i això, també hem obtingut querys d'altres espècies, com Gallus gallus o Xenopus laevis, o bé proteïnes de la maquinària d'Homo sapiens, mitjançant la cerca a la base de dades NCBI.

La majoria de les querys de selenoproteïnes obtingudes tenien una U a la seva seqüència, cosa que no permet un bon funcionament d'alguns dels programes utilitzats després; per tant, cal canviar les U per X.

Totes les seqüències utilitzades com a querys es poden trobar aquí.


Torna a dalt

Obtenció del genoma

El genoma del Sarcophilus harrisii el vam trobar a l'Ensembl, però es tracta d'un fitxer molt gran i molt complicat de manipular amb les eines informàtiques de la Universitat. Per tant, els professors de l'assignatura ens van facilitar aquest genoma, que estava format per diversos scaffolds, en una carpeta de l'assignatura:

/cursos/BI/genomes/project_2013/Sarcophilus_harrisii/genome.fa

Torna a dalt

Cerca manual de les selenoproteïnes

Per tal de realitzar la cerca manual que s'explica a continuació, hem hagut d'exportar diversos programes que seran necessaris al llarg del procés:

Ruta d'exportació Programes pels quals és necessari
$ export PATH=/cursos/BI/bin/ncbiblast/bin:$PATH NCBI Blast
$ cp /cursos/BI/bin/ncbiblast/.ncbirc ~/ NCBI Blast
$ export PATH=/cursos/BI/soft/exonerate/i386/bin:$PATH Exonerate
$ export PATH=/cursos/BI/bin:$PATH Genewise, fastaseqfromGFF.pl i T-coffee
$ export WISECONFIGDIR=/cursos/BI/soft/wise-2.2.0/wisecfg Genewise

1.-Cerca de les proteïnes mitjançant BLAST

En primer lloc hem fet una cerca mitjançant tBLASTn de cadascuna de les querys al genoma de Sarcophilus harrisii. tBLASTn és un programa que produeix alineaments locals de seqüències, en concret, permet comparar una seqüència proteica (query) amb una base de dades de nucleòtids (genoma). Per tal de realitzar-ho hem utilitzat la comanda següent:

$ blastall -p tblastn -e 1e-04 -i fitxerquery.fa -d nombbddBLAST -o fitxerdesortida -m8

Dins d'aquesta comanda cal considerar que a l'argument -p hem d'indicar quin tipus de BLAST estem realitzant (aquest cas és tBLASTn). fitxeruery.fa és el fitxer en format fasta que conté la query que estem buscant, nombbddBLAST és el camí d'on es troba la base de dades de BLAST (que en el nostre cas és un fitxer fasta amb el nostre genoma), i fitxersortida és l'estructura del nom que tindrà el fitxer dins el qual es vol que BLAST emmagatzemi els resultats de la cerca. D'altra banda, també hem limitat els hits que es poden obtenir, tot posant un llindar d'e-value utilitzant l'argument -e, així com també hem modificat el format del fitxer de sortida perquè fos més manipulable en els passos següents, amb l'argument -m 8 .

Torna a dalt

2.-Extracció de la regió genòmica

Per tal de poder manipular millor les dades hem seleccionat una zona encara delimitada de la regió, concretament la que envolta el gen que estem buscant, tot obtenit una seqüència més curta, amb la qual serà més fàcil treballar. Per a fer-ho hem agafat les posicions dels hits obtinguts al tBLASTn i hem expandit els marges de manera que ens assegurem la presència del gen upstream i downstream.

L'extracció de seqüències més curtes requereix l'ús d'un genoma indexat. El genoma proporcionat pel professorat de l'assignatura ja havia estat indexat amb la comanda:

$ fastaindex /directori/genome.fa sortida.index

on fastaindex és el programa que indexa el genoma contingut al camí que nosaltres indiquem (/directori/genome.fa) i sortida.index és la ubicació del fitxer de sortida.

A continuació hem realitzat un fastafetch per tal d'extreure l'scaffold on es troba cada un dels hits estadísticament significatius obtinguts amb el tBLASTn. La comanda que hem utilitzat és:

$ fastafetch /directori/genome.fa sortida.index nomseq > nomseq.fa

on cal indicar el camí al nostre genoma, sortida.index és l'índex obtingut mitjançant l'ordre anterior (fastafetch), nomseq és el nom de la regió (scaffold en el nostre cas) que volem extreure i nomseq.fa el nom i la ubicació del fitxer de sortida.

Finalment, per tal de seleccionar la regió que envolta el gen que estem buscant hem utilitzat el programa fastasubseq, que s'utilitza mitjançant la comanda:

$ fastasubseq /directori/genome.fa start length > genomic.fa

on s’indica primer la ubicació del genoma, start és el nucleòtid que marca l’inici de la subseqüència (que nosaltres hem determinat a 50.000 nucleòtids abans de l'inici predit pel BLAST), length és la llargada de nucleòtids que volem extreure (que nosaltres hem fixat a 300.000) i genomic.fa la ubicació del fitxer de sortida.

Torna a dalt

3.-Predicció de gens

El tBLASTn ens ha proporcionat possibles regions on poden trobar-se les nostres querys i, per tal de verificar-ho, hem utilitzat dos programes de predicció de gens: l'Exonerate i el Genewise. Es tracta de dos programes amb un mateix objectiu, però que utilitzen algorismes lleuregament diferents i, per tant, els resultats tampoc seran exactament els mateixos. Això ho hem utilitzat per a verificar resultats en cas que coincideixin, així com també per a obtenir resultats alternatius quan un dels dos no funcionava correctament.

3.1.-Exonerate

Per tal de realitzar la predicció de gens amb l'exonerate hem utilitzat la comanda següent:

$ exonerate -m p2g --showtargetgff -q query.fa -t genomic.fa > sortida.gff

on -m p2g és el model d’alineament (en aquest cas una proteïna com a query contra un genoma), --showtargetgff inclou el resultat en format GFF al fitxer de sortida, -q és la ubicació de la query, -t indica la subseqüència obtinguda anteriorment i sortida.gff és la ubicació del fitxer de sortida en format gff.

Per tal d’extreure la seqüència exònica en format fasta, hem fet servir el programa fastaseqfromGFF.pl, el qual construeix una seqüència de nucleòtids a partir d’un fitxer GFF. Com que volem construir la seqüència present en els exons (el cDNA), farem servir aquesta comanda per introduir al programa només els exons:

$ egrep -w exon sortida.gff > cDNA.gff

on egrep selecciona les línies on aparegui el patró definit, el qual s'introdueix dins l'argument -w, que indica que el patró ha de ser una paraula sencera (exon en el nostre cas), sortida.gff és el fitxer objectiu i cDNA.gff és el fitxer de sortida. Una vegada creat el fitxer cDNA.gff ja podem fer servir el programa fastaseqfromGFF.pl amb la següent comanda:

$ fastaseqfromGFF.pl genomic.fa cDNA.gff > cDNA.fa

on genomic.fa és la subseqüència extreta anteriorment, cDNA.gff és l’arxiu en format gff contenint només els exons i cDNA.fa és el fitxer de sortida que contindrà, en format fasta, la seqüència del cDNA.

Finalment, per tal d’obtenir la seqüència d’aminoàcids a partir del cDNA obtingut fem servir el programa fastatranslate, inclòs en l’exonarate. Aquest programa tradueix una seqüència de nucleòtids a aminoàcids, i dóna com a fitxer de sortida els sis ORFs (marcs de lectura) possibles per a una seqüència. La comanda utilitzada per a fer anar aquest programa és:

$ fastatranslate -F 1 cDNA.fa > aa_gen.mfa

on cDNA.fa és la ubicació de la seqüència de nucleòtids de cDNA i aa_gen.mfa és el fitxer de sortida en format multifasta. Nosaltres hem hem limitat els marcs de lectura obtinguts mitjançant l'argument -F 1, de manera que només n'obteníem el primer (en el cas que aquest tingués codons stop al llarg de la predicció ho hem tornat a realitzar sense aquesta limitació).

Torna a dalt

3.2.-Genewise

A continuació, hem realitzat una altra predicció de l'anotació del gen mitjançant el programa genewise. Per tal de fer-ho s'ha d'executar la comanda següent:

$ genewise -pep -pretty -cdna -gff -both query.fa genomic.fa > sortida.gff

on -pep és que en el fitxer de sortida mostri la seqüència peptídica predita,-pretty és que mostri l’alineament, -cdna que mostri la seqüència genòmica alineada,-gff que mostri la informació en format gff, -both per tal que realitzi la predicció en els dos sentits de lectura (forward i reverse), query.fa és la ubicació de la nostra query, genomic.fa és la subseqüència extreta anteriorment i sortida.gff és el fitxer de sortida.

Per tal d'obtenir la seqüència peptídica de la proteïna predita hem seleccionat manualment el sentit de lectura que donava un alineament millor i hem extret del fitxer la part que ens interessava (resultat de l'argument -pep).

Torna a dalt

4.-Alineament global amb T-coffee

Un cop hem obtingut les prediccions gèniques i les hem traduït a proteïnes, hem utilitzat el T-Coffee (Tree-based Consistency Objective Function for alignment Evaluation). Aquest programa permet fer l’alineament global de la proteïna resultant amb la seqüència query. Per tant, podrem observar si existeix o no homologia entre aquestes. Per cridar el programa T-Coffee hem fet servir la següent comanda:

$ t_coffee <"fitxerFASTAsequencia1"> <"fitxerFASTAsequencia2">

on fitxerFASTAsequencia1 és la proteïna query i fitxerFASTAsequencia2 és la proteïna obtinguda amb l’exonerate o el genewise.

Torna a dalt

5.-Cerca d'elements SECIS

Un cop finalitzat el procés anterior, es pot realitzar la cerca d’elements SECIS (Selenocysteine Insertion Sequence), els quals són necessaris per a la correcta traducció de la selenocisteïna i, per tant, poden donar suport a les prediccions realitzades anteriorment. La cerca d’elements SECIS s pot fer o bé a través de la plana del software SECISearch o bé a través d’un programa exectutable a través de la comanda següent:

$ SECISearch.pl genomic.fa

On genomic.fa és la seqüència on es vol trobar els elements SECIS.

Torna a dalt

Selenoprofiles

Per tal de suplementar el nostre anàlisi, vam córrer el programa Selenoprofiles contra el genoma de dimoni de Tasmània. D'aquesta manera, podem obtenir informació per les proteïnes en què els mètodes de predicció utilitzats ens han fallat i també per assegurar que les proteïnes trobades es troben a la mateixa posició que les que troba un mètode relativament independent a la nostra cerca.

El programa fa servir el psi-tblastn, exonerate, genewise i diferents filtrats per a tal d'anotar i predir selenoproteïnes al genoma. Com a diferència remarcable respecte al nostre procediment, el Selenoprofiles no utilitza només selenoproteïnes d'un sol organisme, sinó que utilitza un llarg ventall d'organismes per tal de predir les diferents selenoproteïnes, homòlegs i altres.

Per a més informació podeu visitar la següent pàgina web.

Aquest programa ja el teníem instal·lat al nostre cluster. Tot i així, hem hagut de realitzar una sèrie de comandes per tal d'exportar tots els programes que Selenoprofiles utilitza per tal de fer les prediccions. Aquestes comandes són les següents:

$ export PATH=/cursos/BI/bin/ncbiblast/bin:$PATH NCBI Blast
$ cp /cursos/BI/bin/ncbiblast/.ncbirc ~/ NCBI Blast
$ export PATH=/cursos/BI/soft/exonerate/i386/bin:$PATH Exonerate
$ export PATH=/cursos/BI/bin:$PATH Genewise, fastaseqfromGFF.pl
$ export WISECONFIGDIR=/cursos/BI/soft/wise-2.2.0/wisecfg Genewise

La comanda final que vam utilitzar per a córrer el programa va ser la següent:

$ Selenoprofiles results_folder /cursos/BI/genomes/project_2013/Sarcophilus_harrisii/genome.fa -species "Sarcophilus harrisii"

Un cop el programa s'ha executat, els resultats que vam mirar són els que estaven dintre la carpeta de output dins de Sarcophilus_harrisii.genome

Torna a dalt

tRNAscan-SE

No ens hem conformat, només, a buscar la maquinària de síntesi de les selenoproteïnes, sinó que hem volgut buscar si el genoma de Sarcophilus harrisii contenia també el tRNA de selenocisteïna. A priori, esperàvem trobar-lo, ja que si trobem selenoproteïnes, aquest tRNA és indespensable per la seva formació.

Per tal de realitzar aquesta búsqueda, vam fer servir el programa tRNAscan-SE:

En comptes de fer servir la versió web, ens hem descarregat el programa i instal·lat al nostre ordinador, i hem realitzat la búsqueda al genoma de Sarcophilus harrisii.

Aquest programa ens identifica tots els tRNA del nostre genoma, sent capaç d’identificar també tRNA homòlegs inusuals com els de selenocisteïna, elements repetitius derivats de tRNA i pseudogens de tRNA.

Per tal d'executar-lo, hem fet servir la següent comanda:

$ tRNAscan-SE-1.3.1 /cursos/BI/genomes/project_2013/Sarcophilus_harrisii/genome.fa > fitxer_output

Un cop hem obtingut el resultat d'aquest programa, hem realitzat la següent comanda sobre el fitxer que conté el resultat anterior, per tal de filtrar els tRNA d'altres aminoàcids i quedar-nos només amb els resultats de tRNA de selenocisteïna.

$ egrep TCA fitxer_output > fitxer_outputTCA

Torna a dalt