Exercici: Trobar l’anotació d’una selenoproteïna humana a Drosophila Melanogaster
Intenteu trobar l’anotació de la selenoproteïna humana:
>SPS2_human
MAEASATGACGEAMAAAEGSSGPAGLTLGRSFSNYRPFEPQALGLSPSWRLTGFSGMKGU
GCKVPQEALLKLLAGLTRPDVRPPLGRGLVGGQEEASQEAGLPAGAGPSPTFPALGIGMD
SCVIPLRHGGLSLVQTTDFFYPLVEDPYMMGRIACANVLSDLYAMGITECDNMLMLLSVS
QSMSEEEREKVTPLMVKGFRDAAEEGGTAVTGGQTVVNPWIIIGGVATVVCQPNEFIMPD
SAVVGDVLVLTKPLGTQVAVNAHQWLDNPERWNKVKMVVSREEVELAYQEAMFNMATLNR
TAAGLMHTFNAHAATDITGFGILGHSQNLAKQQRNEVSFVIHNLPIIAKMAAVSKASGRF
GLLQGTSAETSGGLLICLPREQAARFCSEIKSSKYGEGHQAWIVGIVEKGNRTARIIDKP
RVIEVLPRGATAAVLAPDSSNASSEPSS
en el genoma de Drosophila Melanogaster (mosca). Les seqüències del genoma d’aquest insecte les trobarem en un únic fitxer FASTA en el següent lloc del sistema de fitxers:
/mnt/NFS_UPF/soft/genomes/D.melanogaster/flybase/dmel-all-chromosome-r6.02.fasta
Seguiu les següents passes:
necessitareu fer anar el software del NCBI Blast
, el software exonerate
, el software GeneWise
, el script en Perl fastaseqfromGFF.pl
i el programa d’alineament global de seqüències T-COFFEE
.
feu una base de dades de BLAST
del genoma de mosca a partir del fitxer donat amb la comanda:
makeblastdb -in /mnt/NFS_UPF/soft/genomes/D.melanogaster/flybase/dmel-all-chromosome-r6.02.fasta -dbtype nucl -out dm2.fa
TBLASTN
. Hi ha algun HSP on poguem observar la selenocisteina alineada amb un altre aminoàcid? Observant aquest aminoàcid, quin HSP és més versemblant?Teniu en compte que per fer el TBLASTN
necessitem el genoma /mnt/NFS_UPF/soft/genomes/D.melanogaster/flybase/dmel-all-chromosome-r6.02.fasta
i la base de dades creada al pas anterior amb el makeblastdb
. Potser que TBLASTN
no funcioni ja que el genoma i la base de dades es troben a dos directoris diferents. En aquest cas, en comptes de copiar el genoma al directori actual (on tenim la base de dades creada), podem fer un soft link del genoma en el directori actual. D’aquesta manera no estem copiant les dades, sinó que estem fent un link. És important tenir en compte que els genomes, en general, són fitxers de mida gran, i per tant, és una manera d’evitar ocupar espai inecessariament.
ln -s /mnt/NFS_UPF/soft/genomes/D.melanogaster/flybase/dmel-all-chromosome-r6.02.fasta dm2.fa
En el cas que feu aquest soft link, per la resta de passos on necessiteu el genoma podeu utilitzar com a fitxer dm2.fa
en comptes del fitxer amb tot el path sencer /mnt/NFS_UPF/soft/genomes/D.melanogaster/flybase/dmel-all-chromosome-r6.02.fasta
.
exonerate
, per tal de poder extreure primer la seqüència que conté la regió, i després extreure la regió a partir de la seqüència (fastasubseq
només funciona sobre un fitxer FASTA que contingui una única seqüència):fastaindex /mnt/NFS_UPF/soft/genomes/D.melanogaster/flybase/dmel-all-chromosome-r6.02.fasta dm2.index
fastafetch /mnt/NFS_UPF/soft/genomes/D.melanogaster/flybase/dmel-all-chromosome-r6.02.fasta dm2.index "nomseq" > nomseq.fa
on nomseq
es refereix al nom de la seqüència en la qual estem interessats. A partir d’aquí ja podem extreure la regió genòmica amb fastasubseq
com haviem vist abans.
genereu una anotació amb exonerate
, emmagatzemant l’anotació de les coordenades dels exons en un fitxer en format GFF. Si creieu que haurieu de trobar el gen en la regió extreta pero l’anotació resultant no inclou tots els exons que esperaveu, proveu d’utilitzar l’opció --exhaustive yes
(si esteu interessats en saber que fa aquesta opció consulteu la següent plana d’ajuda d’aquest software que trobareu aquí.
genereu una anotació amb GeneWise
, emmagatzemant l’anotació de les coordenades dels exons en un fitxer en format GFF.
comproveu si tots dos programes ens donen la mateixa anotació comparant els fitxers GFF.
decidiu amb quina anotació us quedeu o si construiu un fitxer GFF on l’anotació final la fessim a partir de les anotacions d’exons que trobem més verosímils d’entre tots dos programes.
fent anar el programa fastaseqfromGFF.pl
emmgatzemeu en un fitxer FASTA el cDNA corresponent i, mitjançant el programa fastatranslate
, en un altre fitxer FASTA emmagatzemeu la proteïna corresponent.
feu un alineament global de la selenoproteïna humana amb la proteïna predita a partir de la vostra anotació mitjançant el programa T-COFFEE
. Recordeu que aquest programa el podeu fer anar tant desde la seva web com en linia de comandes fent:
t_coffee <fitxerFASTAsequencia1> <fitxerFASTAsequencia2>
blastp -query <fitxerFASTAproteïna> -db /mnt/NFS_UPF/soft/databases/bioblastdb/nr.fa
hi ha algun hit a una versió sencera d’aquesta mateixa proteïna en Drosophila Melanogaster? si és així recupereu la seqüència d’aquesta proteïna a traves de GenBank i alinieu-la amb la regió genòmica en la que hem estat treballant: alinea sencera? us permet generar una millor anotació?
exonerate
i que us poden ser d’utilitat són el fastatranslate
per traduir d’ADN a proteïna i el fastarevcomp
per calcular la seqüència complementaria inversa.En un treball o projecte de l’àmbit de la bioinformàtica sovint ens trobarem que hem de repetir moltes vegades una mateixa comanda en el shell però canviant els arguments. Un exemple típic és el de fer una cerca BLAST d’una mateixa proteïna contra tot un seguit de differents bases de dades de BLAST. El fet de que poguem adreçar la qüestió que volem resoldre mitjançant línies de comanda en Unix
permet automatizar aquest tipus de tasques, en contraposició a la utilizació d’eines a través de la web. La forma d’automatitzar tasques en Unix consisteix en escriure programes (scripts) en el llenguatge de programació del shell del Unix
.
Podem escriure un script del shell en els següents dos passos:
emacs
) que tingui com a primera linia la següent:#!/bin/bash
i a continuacio hi escriviu les ordres que voldrieu que executés el shell del Unix
.
chmod u+x
) i crideu l’script tal i com ho feu amb qualsevol altre programa.A continuació hi trobareu una serie d’exemples que il.lustren la creació de scripts del shell a partir dels quals heu de poder escriure els que pogueu necessitar al llarg d’aquesta assignatura. Tots els exemples fan anar el següent fitxer:
/mnt/NFS_UPF/soft/genomes/vertebrates/genomes_list.tab
el qual conte informació sobre els genomes de protistes emmagatzemats al sistema de fitxers del campus del mar. Haureu d’examinar primer el seu contingut per tal d’entendre els exemples. Per tal de provar els exemples, els heu de copiar en un fitxer de texte seguint els dos passos esmentats anteriorment per poder-los executar:
Exemple 1:
for any in 2012 2013 ; do {
echo Els genomes de vertebrats pels treballs de l\'any $any son
grep $any /mnt/NFS_UPF/soft/genomes/vertebrates/genomes_list.tab | cut -f 2 ;
} done
Exemple 2:
for genome in Ailuropoda_melanoleuca Cricetulus_griseus ; do {
blastdb=`grep $genome /mnt/NFS_UPF/soft/genomes/vertebrates/genomes_list.tab | cut -f3`
echo la bb.dd. de blast del genoma de $genome esta a $blastdb
} done
Exemple 3:
for genome in Ailuropoda_melanoleuca Cricetulus_griseus ; do {
blastdb=`grep $genome /mnt/NFS_UPF/soft/genomes/vertebrates/genomes_list.tab | cut -f 3`
tblastn -query sel15human.aa.fa -db $blastdb -out sel15humanCONTRA$genome.tblastn
} done