Materials i mètodes
2.Obtenció de les seqüències de les selenoproteïnes
3.tBLASTn
4.Selecció de candidats
5.Extracció de la seqüència genòmica de la regió d'interès
6.Anotació del genoma mitjançant Exonerate
7.Anotació del genoma mitjançant Genewise
8.Anàlisi de les seqüències proteiques predites: T-COFFEE
9.Cerca d'elements SECIS
- Obtenció de les seqüències dels protists
Els genomes dels protists analitzats els han proporcionat els professors de l'assignatura a través de la ruta:
/cursos/BI/genomes/protists/2010/nomprotist/genome.fa
/cursos/BI/genomes/protists/2009/nomprotist/genome.fa
torna a dalt - Obtenció de les seqüències de les selenoproteïnes
Els genomes de les selenoproteïnes s'han obtingut a partir de la base de dades SelenoDB.
Les selenoproteïnes que no es troben a selenoDB han estat proporcionades pels professors. També s'han consultat treballs d'anys anteriors per tal de poder treballar amb selenoproteïnes d'organimes més propers filogenèticament.
torna a dalt - tBLASTn
Primer de tot cal formatejar el genoma de l'organisme per crear una base de dades de BLAST executant la següent comanda:
$ formatdb -i /cursos/BI/genomes/protists/2010/nomprotist/genome.fa -p F -n nomprotistDB.fa
Per poder executar el BLAST necessitem el software NCBI BLAST posant les següents ordres al shell:
$ export PATH=/cursos/BI/bin/ncbiblast/bin:$PATH
$ cp /cursos/BI/bin/ncbiblast/.ncbirc ~/
A continuació s'ha de fer la cerca en blast a partir de la següent comanda :
$ blastall -p tblastn -i Sel_.fa -d nomprotistDB.fa -o sel_contraprotist.tblastn
Aquesta comanda es pot utilitzar amb l'opció- -m 9: ens mostra una taula on es poden observar els e-values dels alineaments realitzats per tBLASTn.
- -F F: extreu les regions de baixa complexitat i, a més, permet observar en detall els diferents alineaments.
- Selecció de candidats
A partir del tBLASTn s'obtenen un seguit de possibles candidats anomenats hits per a cada una de les seqüències query. Els hits són regions del genoma de l'organisme que mantenen certa semblança amb la regió query. Per tal de seleccionar els millors hits s'han tingut en compte :
- L'e-value: nombre de vegades que es pot obtenir un cert alineament per atzar. Com menor sigui aquest valor, més significatiu serà l'alineament. En aquest treball tan sols s'han analitzat les seqüències que presenten un e-value inferior a 1.
- Presència de U o C: cal mirar si en la seqüència query de l'alineament hi ha la U. Si la U es troba alineada amb un codó STOP ens trobem davant una possible selenocisteïna. Si en canvi es troba alineada amb una C o una R parlarem d'un possible homòleg en cisteïna o en arginina respectivament. En ambdós casos s'haurà de continuar amb els passos explicats a continuació.
Si la C es troba alineada amb una C o una U parlarem d'un possible homòleg en cisteïna o d'una selenocisteïna.
- Extracció de la seqüència genòmica de la regió d'interès
Per tal d'extreure la regió genòmica d'interès s'utilitza la comanda fastasubseq. Aquesta comanda necessita un fitxer FASTA que contingui una única seqüència. Per això es requereix l'ajuda de dos programes que acompanyen a exonerate per tal de poder extreure primer la seqüència que conté la regió:
$ fastaindex /cursos/BI/genomes/protists/2010/nomprotist/genome.fa protist.index
$ fastafetch /cursos/BI/genomes/protists/2010/nomprotist/genome.fa protist.index identificadorcontig > contigprotist.fa
Ara ja es pot extreure la regió d'interès a partir d'aquesta seqüència. Mitjançant la comanda fastasubseq, es pot tallar la seqüència del contig per obtenir la seqüència alineada al tBLASTn. Com que probablement aquest alineament no ha agafat tota la llargada de la proteïna cal tallar la seqüència més enllà dels extrems proporcionats pel tBLASTn. La llargada de la seqüència que s'extreu depèn de la posició de l'alineament al contig i de la pròpia llargada del contig.
$ fastasubseq /cursos/BI/genomes/protists/2010/nomprotist/genome.fa start length > genomic.fa
Start és la primera base de la seqüència que es vol extreure i lenght és la longitud de la seqüència a extreure. En el nostre cas es va decidir extreure una regió de 10000 bases. Cal tenir en compte si s'està treballant amb strand forward o reverse.
torna a dalt - Anotació del genoma mitjançant Exonerate
Exonerate és un programa que alinea seqüències predint quina podria ser l'estructura exònica de la seqüència problema. Per utilitzar-lo es necessiten les següents ordres:
$ export PATH=/cursos/BI/bin:$PATH
$ exonerate -m p2g --showtargetgff -q sel_.fa -t genomic.fa > exonerateprotist.gff
Les seqüències alineades són la seqüència nucleotídica de la selenocisteïna query amb la seqüència genòmica extreta del contig mitjançant el fastasubseq.
Per extreure només la part corresponent als exons s'aplica la comanda:
$ exonerate -m p2g --showtargetgff -q sel_.fa -t genomic.fa | egrep -w exon > exonerateprotist.gff
Per tal de poder extreure la seqüència del cDNA a partir del fitxer gff obtingut amb aquest programa, fem servir el programa en perl anomenat fastaseqfromGFF.pl a partir de la següent ordre:
$ fastaseqfromGFF.pl genomic.fa exonerateprotist.gff > cdna.fa
Mitjançant el programa fastatranslate s'obté un fitxer FASTA en el qual hi ha la traducció del cDNA a proteïna.
$ fastatranslate cdna.fa > prot.fa
torna a dalt - Anotació del genoma mitjançant Genewise
Una altra manera d'anotar el genoma és mitjançant genewise. Genewise compara una seqüència proteica amb una seqüència nucleotídica de DNA. En el cas de genewise no cal utilitzar fasaseqfromGFF ni fastatranslate ja que s'obté la seqüència del cDNA i de la proteïna directament. Cal tenir en compte que genewise, a diferència de l'exonerate, és sensible a la direccionalitat de l'alineament i per tant, caldrà indicar a la comanda si es treballa amb strand forward o reverse.
$ export PATH=/cursos/BI/bin:$PATH
$ export WISECONFIGDIR=/cursos/BI/soft/wise-2.2.0/wisecfg
$ genewise -pep -pretty -cdna -gff sel_.fa genomic.fa
En el cas que la seqüència obtinguda amb el BLAST estigui en sentit reverse, cal afegir -trev a la comada anterior.
$ genewise -pep -pretty -cdna -gff -trev sel_.fa genomic.fa
torna a dalt - Anàlisi de les seqüències proteiques predites: T-Coffee
Un cop tenim la seqüència proteica de la selenoproteïna a la nostra espècie, es pot fer un alineament global alineant-la amb la seqüència query inicial per poder analitzar l'homologia. Això es fa mitjançant el programa T_Coffee amb la següent comanda :
$ t_coffee sel_.fa prot.fa
torna a dalt - Cerca d'elements SECIS
Es comprova si la seqüència obtinguda és una selenoproteïna buscant elements SECIS en l'extrem 3'UTR del mRNA. Mitjançant la funció fastasubseq obtenim els 3000 pb que es troben a la regió 3'. Cal tenir en compte que si la proteïna es sintetitza mitjançant l'strand reverse s'ha d'obtenir la seqüència complementària i buscar els elements SECIS en aquesta seqüència. Un cop extreta la seqüència s'utilitza el software de la pàgina web SECISearch.
Aquest programa fa una predicció d'elements basada en l'estructura secundària dels elements SECIS coneguts. Per saber si la predicció és significativa cal que l'score sigui superior a 15.
torna a dalt