Materials i Mètodes
1. AUTOMATITZACIÓPer tal de fer possible l’anàlisi d’una gran quantitat de dades, hem creat alguns programes per automatitzar el procés.
Podeu consultar aquí el codi font dels programes.
Les selenoproteïnes a analitzar van ser seleccionades aleatòriament pels professors de l'assignatura de Bioinformàtica. Al nostres grup ens van ser assignades les famílies Sel J, Sel Q i Sel Tryp, que no apareixien a la base de dades SelenoDB i que ens van proporcionar a partir d'un fitxer comprimit.
Els genomes de protists que hem utilitzat són els que s'han anotat l'any 2011 i van ser facilitats pels mateixos professors de l'assignatura. Els genomes en els quals havíem de buscar selenoproteïnes els vam trobar al fitxer:
/cursos/BI/genomes/protists/genomes_list_and_info.tab
i, més concretament, dins el directori:
/cursos/BI/genomes/protists/2011
El BLAST (Basic Local Alignment Search Tool) és un programa informàtic d'alineament de seqüències de tipus local, ja sigui de ADN o de proteïnes. El programa és capaç de comparar una seqüència problema (anomenada query) contra una gran quantitat de seqüències que es troben en una base de dades. L'algorisme que fa servir troba les seqüències de la base de dades que tenen major semblança a la seqüència query molt ràpidament, però és heurístic i per tant es poden perdre hits reals que no presenten una similaritat molt elevada. [7]
Segons la naturalesa de la nostra query (DNA o porteïna) i segons la naturalesa de la base de dades objectiu farem servir un tipus de BLAST o un altre. En el nostre cas utilitzem tBLASTn, el qual permet comparar una seqüència proteica (query) amb la base de dades de nucelòtids d’interès. Per portar-ho a terme tradueix a proteïna totes les seqüències de nucleòtids que hi ha a la base de dades en els 6 possibles marcs de lectura (Open Reading Frame), les compara amb la nostra query i mostra els hits trobats.
Per extreure el software necessari per la utilització d'aquest programa és necessari donar aquestes dues ordres al shell:
$ export PATH=/cursos/BI/bin/ncbiblast/bin:$PATH $ cp /cursos/BI/bin/ncbiblast/.ncbirc ~/
Per executar una cerca tBLASTn d’una query contra una base de dades s’ha d’utilitzar la comanda següent:
$ blastall -p tblastn -i query.fa -d genoma.fa -o proteinavsgenoma.tblastn
on -p és el tipus de blast, -i és la ubicació de la query, -d és la ubicació de la base de dades i -o és el nom on s’exportarà la informació d'output.
Els tBLASTn ens donen uns hits que són les regions de la base de dades de genomes de protists que presenten similaritat amb la query que estem analitzant. Aquests hits presenten un valor d’e-value. Aquest valor de la e representa la probabilitat de trobar l’alineament mostrat per atzar. Aquest valor es considera significatiu quan és igual o més petit de 10-4.
Utilitzant l’opció -m 9 el programa mostra la informació de sortida de forma més resumida en columnes.
Tot els programes que farem servir d’ara en endavant formen part d’un software anomenat exonerate [8]. Per tal d’utilitzar aquests programes haurem d’introduir al shell la següent comanda:
$ export PATH=/cursos/BI/bin/exonerate/i386/bin:$PATH
5.1 Fastaindex:
Organitza el genoma en diferents regions. El programa fastafech (que utilitzarem a continuació) requereix que els genomes s’hagin indexat previament per a funcionar.
$ fastaindex /directori/genoma.fa sortida.index
on s’indica primer la ubicació del genoma i després la ubicació del fitxer de sortida.
5.2 Fastafetch:
Selecciona una regió indicada i la desa en un document fasta. En el nostre cas vam seleccionar les regions indicades als fitxers de sortida de BLAST dels nostres hits.
$ fastafetch /directori/genoma.fa sortida.index nomseq > nomseq.fa
on s’indica primer la ubicació del genoma, la ubicació de l’index, nomseq és el nom de la regió que volem extreure i nomseq.fa la ubicació del fitxer de sortida.
5.3 Fastasubsequence:
Selecciona una zona encara més delimitada de la regió, concretament la que envolta el gen que estem buscant. D’aquesta manera, obtenim una seqüència més curta, amb la que serà més fàcil treballar. S’ha d’agafar les posicions del hit obtingut al BLAST i expandir els marges de manera que ens assegurem la presència del gen upstream i downstream.
$ fastasubseq /directori/genoma.fa start length > genomic.fa
on s’indica primer la ubicació del genoma, start és el nucleòtid que marca l’inici de la subseqüència, length és la llargada de nucleòtids que volem extreure i genomic.fa la ubicació del fitxer de sortida.
Tant l’Exonerate com el Genwise són softwares que ens proporcionen un alineament més precís i una anotació del gen corresponent a la proteïna query, és a dir, obtenim una descripció detallada del gen: zones d’splicing, exons, introns, etc. [8] [9]
6.1 EXONERATE
$ exonerate -m p2g --showtargetgff -q query.fa -t genomic.fa > sortida.gff
on -m p2g és el model d’alineament (proteïna vs genoma), --showtargetgff inclou el resultat en format GFF al fitxer de sortida, -q és la ubicació de la query, -t indica la subseqüència delimitada anteriorment i sortida.gff és la ubicació del fitxer de sortida en format gff.
Per tal d’extreure la seqüència exònica en format fasta, fem servir següent programa que conté l’exonerate:
6.1.1 FastaseqfromGFF.pl:
Construeix una sequència de nucleòtids a partir de d’un fitxer GFF. Com que volem construir la seqüència present en els exons (el cDNA), farem servir aquesta comanda per introduir al programa només els exons:
$ egrep -w exon sortida.gff > cDNA.gff
on egrep selecciona les línies on aparegui el patró definit, -w indica que el patró ha de ser una paraula sencera, exon és el patró que volem buscar, sortida.gff és el fitxer objectiu i cDNA.gff és el fitxer de sortida.
Ja podem fer servir el programa fastaseqfromGFF.pl amb la següent comanda:$ fastaseqfromGFF.pl genomic.fa cDNA.gff > cDNA.fa
on genomic.fa és la subseqüència extreta anteriorment, cDNA.gff és l’arxiu en format gff contenint només els exons i cDNA.fa és el fitxer de sortida que contindra en format fasta la seqüència de DNA del cDNA.
Per tal d’obtenir la seqüència d’aminoàcids a partir del cDNA obtingut fem servir el programa següent, inclòs en l’exonarate :
6.1.2 Fastatranslate:
Tradueix una seqüència de nucleòtids a aminoàcids, i dóna com a fitxer de sortida els sis ORFs (marcs de lectura) possibles per a una seqüència.
$ fastatranslate cDNA.fa > aa_gen.mfa
on cDNA.fa és la ubicació de la seqüència de nucleòtids de cDNA i aa_gen.mfa és el fitxer de sortida en format multifasta.
Cal dir que el fitxer de sortida contindrà sis transcrits dels quals només un és correcte i ens interessa. Per comprovar quin és el correcte es pot fer un alineament múltiple o comprovar-ho al fitxer de sortida de l’exonerate.
6.2 GENEWISE
Amb el programa genewise generem una nova anotació del gen. La seva funció és la mateixa que l’Exonarate, però com que no fa servir el mateix algoritme els resultats poden variar.
$ export PATH=/cursos/BI/bin:$PATH
$ export WISECONFIGDIR=/cursos/BI/soft/wise-2.2.0/wisecfg
per tal de fer-lo anar, el executem la següent comanda:
$ genewise -pep -pretty -cdna -gff query.fa genomic.fa > sortida.gff
on -pep és que mostri al fitxer de sortida la seqüència peptídica predita,-pretty és que mostri l’alineament, -cdna que mostri la seqüència genòmica alineada,-gff que mostri la informació en format gff, query.fa és la ubicació de la nostra query, genomic.fa és la subseqüència i sortida.gff és el fitxer de sortida.
Un cop traduïda la seqüència el T-Coffee permet fer l’alineament global de la proteïna resultant amb la seqüència query. Amb aquest programa observarem si existeix o no homolgia entre aquestes [10]. Per cridar el T-Coffee fem servir la següent comanda:
$ t_coffee < fitxerFASTAsequencia1 > < fitxerFASTAsequencia2 >
on fitxerFASTAsequencia1 és la proteïna query i on fitxerFASTAsequencia2 és la proteïna obtinguda amb l’exonerate o el genewise, o viceversa.
Un cop finalitzada la cerca de selenoproteïnes, procedim amb la cerca d’elements SECIS i maquinària de traduccció. La cerca d’elements SECIS la fem o bé a través de la plana del software SECISearch [11] o bé a través d’un programa disponible a través de les següents comandes:
$ export PATH=/cursos/BI/bin:$PATH
Per executar el programa utilitzarem la comanda següent:
$ SECISearch.pl genomic.fa
On genomic.fa és la seqüència on es vol trobar els elements SECIS.
A més a més també és convenient buscar els gens del tRNA i això ho fem a través del software tRNAscan-SE.