Materials i mètodes
1.Obtenció dels genomes dels protistes
Els genomes dels protistes van ser extrets del directori proporcionat pels professors de l’assignatura:
/cursos/BI/genomes/protists/2012
1.Obtenció dels genomes dels protistes
Els genomes dels protistes van ser extrets del directori proporcionat pels professors de l’assignatura:
/cursos/BI/genomes/protists/2012
La seqüència aminoacídica de les selenoproteïnes O i P va ser obtinguda mitjançant la base de dades SelenoDB en un arxiu de format fasta. D’altra banda, la seqüència d’aminoàcids de la selenoproteïna Tryp es va extreure del directori següent:
/cursos/BI/genomes/protists/genomes_list_and_info.tab
Durant l'elaboració del projecte es va utilitzar altres queries de les selenoproteïnes O i P provinents d'organismes ja estudiats i presents en la base de dades de BLAST.
>gi|299471650|emb|CBN76872.1| selenoprotein O homolog [Ectocarpus siliculosus] MSLASAVTSSAEGLLLARASVRRGASSSSRVFGAAAPSSSCRRGTHHISSTAAFTYPAAATAAAATASVS HSNRNDRVVTARPASRTAMSTAVDAAATCSSSTLDTLPFDNRVIRELPVDPITDNYVRRVENACFSIVAP DPVVKPVMVAASNSALGLLGLAAEEGQREDAAEYFSGNKLMPGAQPHAHAYCGHQFGSFAGQLGDGAAMY LGEVEGPSGRWEIQFKGAGLTPYSRSADGRKVLRSSIREFLCSEAMHFLGIPTTRAAALVTSDTKVRRDV FYTGNVIQERASIVTRLAPTFLRFGSFEIFKPRDPRTGRDGPSAGNDALRLQMLEYAIGRFFPGAAAAGP EGSKARYLAMYEEAVRSTAELVAKWQCVGFTHGVLNTDNMSILGLTIDYGPYGFMDFFDPKFVPNGSDGG GRYSYERQPEMCKWNLHKFAEAVAPALPLSDSTAALEKYDGLFKGYYEEGMRRKLGLFSVEEDDDGLFES LFATMADTSADFTGTFRELAQLVPGGDVDAVSKALAAQCAGPKIKAKALRRAVDIGRPSIPPQQLQGLWA MAQENPEALAQRFSAPKDAVIAELREEMQKLSNYDAAQQRLKDMEALEEDGXEAIEDAEKGDFSGVQRVL RLLESPYDPPADDGEGSSSPGGKDYLRATPDWAADLVCTCSS
Query Selenoproteïna O de Ectocarpus siliculosus
>gi|262106269|gb|EEY64321.1| selenoprotein O, putative [Phytophthora infestans T30-4] MMTRMANSGRGSLSRSFSSWRRLPSSRFDNAVLRELPIDTEPKNFVRSAVSGACFSRVDPTPIASPELVV TSPNSLLLVGIELNESDSKSQDEGVNGEGDDLQPIETLVPILAGNTLLPGAETAAQCYCGHQFGFFSGQL GDGAALYLGEVVAVDERWELQLKGSGLTPYSRTADGRKVLRSTLREFLCSENMHALGVPTTRAGSVVTSK ETQVLRDIFYNGDAKMEPTAVVTRIAKSFLRFGSFEIFKDEDKLTGLAGPSAHLENKEEMMREMLDFTIR QYYSEISGARKYEKFFQEVVRRTAMLVAKWQSIGFCHGVLNTDNMSIVGDTLDYGPFGFMEHFDPKHICN TSDDRGRYRYEAQPEVCKWNCGVLADQLGLVTERAGLEPILESFDAVYEAEYMRLMREKLGLSDEEKEDK MLVDTLFDVLAFTGADFTCTFRYLSELDVFETGDCREQVLNKLVAVSETLAQQKRKLELDSGGVSDAQFD MVVMLLQENPVRARQYGITPALVAQIKANREAKKLLDATTDEERMDSIRTVWVDWIDVYISRVKEQGDAA SDADRRRRMLDVNPLFVLRNHVAQKAIDFAHEGDYDAVQHIFELVTNPFDEPTDDRDLEYARPQDSSTAP LCVSCSS
Query Selenoproteïna O de Phytophthora infestans T30-4
>gi|283464107|gb|ADB22637.1| selenoprotein P [Saccoglossus kowalevskii] MGHQGMLLAALLSLATLVCSAPISPECPDGVLWSVNEETPMLANRGKVVVVALLQASUHFCLSQAEALEV LREKFLSQGMDEISFLVVNSKKLHSQFLIGHLHQRVSFPVYQARYENDIWSQLDGAKDDIIVYDRCGKLV DHIRMPYSFLENDNVERAIVSAYYENPCGRCEVVEPQVSEDLVTYEVNTSYEGSGDIIDGDPLVYLIELE HEVEDLEKQALERQRVRNHSQTNSSDESQMVGQDEKNSESMESREDKSGSASSEESKKYGSTESKSGSFS SEESKQDGSRQSGSSEESKQDGSRQSGSSEESKQDGSRQFGSSEESKQDGSRQSGSSEEKKKDDDWWKVE KWSSEDKHSKEESHDKKSKDKDSLEATRKDWSSESDEDSFEKKKK
Query Selenoproteïna P de Saccoglossus kowalevskii
El nostre objectiu és comparar la seqüència aminoacídica d’una selenoproteïna amb el genoma d’un protist i per fer-ho utilitzarem el tblastn que compara una query proteica contra una base de dades nucleotídica, que en el nostre cas seran els genomes dels protists assignats.
El problema de blast és que fa servir un algorisme heurístic, per tant podem perdre informació de hits que no tinguin una similitud molt elevada.
Primer de tot cal exportar el software NCBI BLAST a l’ordinador per mitjà de les ordres següents:
$ export PATH=/cursos/BI/bin/ncbiblast/bin:$PATH
$ cp /cursos/BI/bin/ncbiblast/.ncbirc ~/
La comanda que realitzarà la cerca en BLAST és la següent:
$ blastall -p tblastn -i fitxerquery.fa -d nombbddBLAST.fa -o fitxerdesortida
on -p ens indica el tipus de BLAST que utilitzarem, -i indica el fitxer on tenim la query, -d indica el nom de la base de dades de BLAST en la qual volem fer la cerca i -o el nom del fitxer de sortida que volem que BLAST ens emmagatzemi els resultats obtinguts de la cerca.
Un exemple de la comanda aplicada al nostre treball:
$ blastall -p tblastn -i selPhuman.fa -d /cursos/BI/genomes/protists/2012/A.laibachii_Nc14/genome.fa -o ....
4.Extracció regions genòmiques
Per obtenir les regions genòmiques dels hits s'utilitza un conjunt de programes que formen part de software exonerate. Primer de tot cal exportar al programa amb la següent comanda:
$ export PATH=/cursos/BI/bin/exonerate/i386/bin:$PATH
Es necessiten uns passos previs fins a obtenir la regió genòmica
a) Fastaindex: aquest programa ens permet indexar els genomes perquè puguin funcionar en el següent programa, és a dir, ordena el genoma en un fitxer en forma d'índex de cada cromosoma del genoma:
$ fastaindex /directori/genoma.fa sortida.index
b) Fastafetch: comanda que serveix per buscar la seqüència d’interès en l’índex que hem creat,és a dir, permet trobar en quina regió del genoma del protist es troba un hit determinat.
$ fastafetch /directori/genoma.fa sortida.index nomseq > nomseq.fa
c) Fastasubseq: En tenir un fitxer fasta (després del fastafetch deixa de ser multifasta) permet utilitzar la comanda fastasubseq que serveix per seleccionar la part de la seqüència d’interès. A l’hora de delimitar la llargada cal tenir en compte la seqüència diana més un marge d’error tant per davant com per darrere(upstream i downstream), que serà d’aproximadament uns 50000 nucleòtids, per tal de no perdre informació i garantir que s’inclouen els extrems 3’ i 5’. La posició d’inici depèn de si el sentit és forward o reverse, per aquest motiu s’agafarà sempre d’inici la posició més petita.
$ fastasubseq query.fa start length > output.fa
Exemple:$ fastasubseq /directori/genoma.fa start length > genomic.fa
a) Exonerate : Consisteix en la generació d’una anotació amb exonerate i emmagatzematge de les coordenades de l’exó en format GFF. La seqüència query, en el nostre cas, és la selenoproteïna humana i la target és la seqüència del genoma del protist, en la regió extreta gràcies a fastasubseq, per això proporciona un alineament més precís que BLAST. Cal tenir en compte que aquest programa no reconeix el símbol U de les selenocisteïnes i per això s’ha de substituir per una X.
$ exonerate -m p2g --showtargetgff -q query.fa -t scaffold.fa | moreTambé es pot concatenar un egrep per tal que agafi els exons i redigir-los a un fitxer.
b) Genewise: és un software que ens permet obtenir l'anotació del gen del hit que obtingut amb blast. Fa la mateixa funció que l'exonerate, però de forma més ràpida i en menys passos. Ens serveix per confirmar si és correcte l'exonerate o per obtenir algun gen que no s'hagi trobat amb exonerate.
$ export PATH=/cursos/BI/bin:$PATH $ export WISECONFIGDIR=/cursos/BI/soft/wise-2.2.0/wisecfgla comanda necessària per executar-lo:
$ genewise -pep -pretty -cdna -gff query.fa genomic.fa > fitxersortida.gff
A partir del fitxer GFF que hem obtingut després de realitzar el exonerate, s'utilitza un programa en Perl (fastaseqfromGFF.pl) s'obté un fitxer tipus FASTA amb el cDNA corresponent. Utilitzant el programa fastatranslate, es podrà traduir la seqüència a proteïna.
$ fastaseqfromGFF.pl scaffoldsubseq.fa protein.gff > protein.cdna $ more protein.cdna > scaffold:subseq(start,length) CCATCTGGATTTGTAATTCCAAAAGTGTTTTTGTATCTAACAATATACAGTATTAAAAAAACATGCCAGCAAATTCAAGCCGAATTGACGGCCGCCGACTGCCGGGCGTTGGGTTTTATTAAGGCCCAGTTAATGTGTTCCAGTTGCGAAAAACTGGATGATTTCGGATTGGATACCATCAAGCCTCAGTGTAAGCAATGCTGCACTTTGGATCAGCAGCCGGCGGCACAGCGGACATATGCCAAGGCAATTCTGGAGGTGTGCACCTGCAAATTCCGGGCCTATCCGCAGATTCAG $ fastatranslate protein.cdnaDe totes les seqüències obtingudes, cal seleccionar la de la pauta de lectura que més s’assembli a la nostra predicció.
El TCoffee és útil per la realització d’un alineament global de les dues proteïnes, la query i la trobada gràcies al fastatranslate.S’han obtingut dues proteïnes, la provinent de l’exonerate i del genewise. En la majoria dels casos haurien de ser similars però no sempre és així. Per aquesta raó s’utilitza Tcoffee per saber quina de les dues proteïnes té millor homologia amb la query, ja sigui perquè té un alineament amb més similaritat o bé perquè un incorpora la selenocisteïna i l’altre no. [13]
$ t_coffee
Exemple:$ t_coffee query.fa translate.fa
Gràcies a les automatitzacions dels projectes de cursos anteriors shan desenvolupat una sèrie de programes en llenguatge bash i perl per tal de agilitzar el procés de recerca de selenoproteïnes en un gran volum de dades. Adaptant els programes del projecte de Costa M, Domingo C, Girbau A i Inglés M (2010-2011), shan programat tres programes bash i un perl.
Com utilitzar-lo: Abans de començar cal fer els export corresponents per instal·lar els programes blast, exonerate, genewise i t_coffee.
1. Blast.bash
Aquest programa executarà el tblastn per cada una de les queries amb tots els genomes dels protists que es volen analitzar.
Abans de començar però, al treballar amb una base de dades de tots els genomes en format multifasta, shan de crear els arxius que volem utilitzar de forma que BLAST ho pugui entendre. Cal col·locar els genomes en un directori amb el nom de l'organisme on el genoma es trobi formatejat i indexat de forma que el nom de la base de dades sigui “genoma.fa”.
Per poder fer córrer el programa cal:
$ fastaindex /cursos/BI/genomes/protists/2012//genome.fa ./llibreria/genomes/ .index
Per visualitzar i valorar el resultat obtingut es crearà un arxiu anomenat "resultats_blast.txt" on es veuran només els hits que siguin significatius.
2. Programa Bash
Aquest programa executarà l'exonerate i el genewise per cada un dels hits obtinguts amb el programa anterior.
Perquè funcioni calen unes carpetes que es crearan automàticament amb el programa i s'hi emmagatzemarà la informació següent:
* Aquest punt és molt important. S'ha de mirar que en tots els hits l'ORF a escollir sigui el número 1. En el nostre cas, ha estat així, per tant, sha procedit amb lautomatització i shan seleccionat en cada un dels hits el frame 1.
Quan acaba el programa es genera un arxiu anomenat “resultats_exonerate.txt” on es mostren els exonerates que han predit gens. Això ens serveix, per una banda, per veure quins hits obtinguts mitjançant tblastn hem perdut i, per l'altre, per saber amb quins exonerates seguirem treballant.
3. TCoffee
Per poder córrer el TCoffee és necessari canviar les U de les seqüències de les queries per X i guardar-les en format fasta al mateix directori on prèviament cal haver creat les següents carpetes:
Útil per a comprovar si la proteïna obtinguda té homòlegs en altres espècies. Consisteix en fer una cerca blastp contra el conjunt no redundant de totes les proteïnes disponibles a la pàgina web de NCBI.
Un cop finalitzada la cerca de selenoproteïnes, es va procedir a la cerca d’elements SECIS i maquinària de traducció. La cerca d’elements SECIS es va fer mitjançant el programa secis.bash que ens dona les dades per pantalla usant el patró que ens ofereix per defecte el programa. També es pot fer a través de la plana del software SECISearch o bé a través d’un programa disponible a través de les següents comandes:
$ export PATH=/cursos/BI/bin:$PATHPer executar el programa utilitzarem la comanda següent:
$ SECISearch.pl genomic.fa
On genomic.fa és la seqüència on es vol trobar els elements SECIS.En aquest treball s'han utilitzat les seqüències guardades a la carpeta “subseq”.
#!/bin/bash export PATH=/cursos/BI/bin:$PATH for file in ./subseq/*.fa; do { SECISearch.pl $file } done
Hem utilitzat els mateixos programes que hem fet servir per obtenir les selenoproteïnes.
Queries humanes utilitzades de la maquinària
>SPS2.HUMAN.gi|14717790|gb|AAC50958.2| selenophosphate synthetase 2 [Homo sapiens] MAEASATGACGEAMAAAEGSSGPAGLTLGRSFSNYRPFEPQALGLSPSWRLTGFSGMKGXGCKVPQEALL KLLAGLTRPDVRPPLGRGLVGGQEEASQEAGLPAGAGPSPTFPALGIGMDSCVIPLRHGGLSLVQTTDFF YPLVEDPYMMGRIACANVLSDLYAMGITECDNMLMLLSVSQSMSEEEREKVTPLMVKGFRDAAEEGGTAV TGGQTVVNPWIIIGGVATVVCQPNEFIMPDSAVVGDVLVLTKPLGTQVAVNAHQWLDNPERWNKVKMVVS REEVELAYQEAMFNMATLNRTAAGLMHTFNAHAATDITGFGILGHSQNLAKQQRNEVSFVIHNLPIIAKM AAVSKASGRFGLLQGTSAETSGGLLICLPREQAARFCSEIKSSKYGEGHQAWIVGIVEKGNRTARIIDKP RVIEVLPRGATAAVLAPDSSNASSEPSS
>SBP2human_SPP00000037_1.0 # Protein # SECIS binding protein 2 (SBP2) # Homo sapiens # Complete MASEGPREPESEGIKLSADVKPFVPRFAGLNVAWLESSEACVFPSSAATYYPFVQEPPVT EQKIYTEDMAFGASTFPPQYLSSEITLHPYAYSPYTLDSTQNVYSVPGSQYLYNQPSCYR GFQTVKHRNENTCPLPQEMKALFKKKTYDEKKTYDQQKFDSERADGTISSEIKSARGSHH LSIYAENSLKSDGYHKRTDRKSRIIAKNVSTSKPEFEFTTLDFPELQGAENNMSEIQKQP KWGPVHSVSTDISLLREVVKPAAVLSKGEIVVKNNPNESVTANAATNSPSCTRELSWTPM GYVVRQTLSTELSAAPKNVTSMINLKTIASSADPKNVSIPSSEALSSDPSYNKEKHIIHP TQKSKASQGSDLEQNEASRKNKKKKEKSTSKYEVLTVQEPPRIEDAEEFPNLAVASERRD RIETPKFQSKQQPQDNFKNNVKKSQLPVQLDLGGMLTALEKKQHSQHAKQSSKPVVVSVG AVPVLSKECASGERGRRMSQMKTPHNPLDSSAPLMKKGKQREIPKAKKPTSLKKIILKER QERKQRLQENAVSPAFTSDDTQDGESGGDDQFPEQAELSGPEGMDELISTPSVEDKSEEP PGTELQRDTEASHLAPNHTTFPKIHSRRFRDYCSQMLSKEVDACVTDLLKELVRFQDRMY QKDPVKAKTKRRLVLGLREVLKHLKLKKLKCVIISPNCEKIQSKGGLDDTLHTIIDYACE QNIPFVFALNRKALGRSLNKAVPVSVVGIFSYDGAQDQFHKMVELTVAARQAYKTMLENV QQELVGEPRPQAPPSLPTQGPSCPAEDGPPALKEKEEPHYIEIWKKHLEAYSGCTLELEE SLEASTSQMMNLNL
>SPS1.HUMAN.gi|12654243|gb|AAH00941.1| Selenophosphate synthetase 1 [Homo sapiens] MSTRESFNPESYELDKSFRLTRFTELKGTGCKVPQDVLQKLLESLQENHFQEDEQFLGAVMPRLGIGMDT CVIPLRHGGLSLVQTTDYIYPIVDDPYMMGRIACANVLSDLYAMGVTECDNMLMLLGVSNKMTDRERDKV MPLIIQGFKDAAEEAGTSVTGGQTVLNPWIVLGGVATTVCQPNEFIMPDNAVPGDVLVLTKPLGTQVAVA VHQWLDIPEKWNKIKLVVTQEDVELAYQEAMMNMARLNRTAAGLMHTFNAHAATDITGFGILGHAQNLAK QQRNEVSFVIHNLPVLAKMAAVSKACGNMFGLMHGTCPETSGGLLICLPREQAARFCAEIKSPKYGEGHQ AWIIGIVEKGNRTARIIDKPRIIEVAPQVATQNVNPTPGATS
>PSTK.HUMAN.gi|23273402|gb|AAH35344.1| Phosphoseryl-tRNA kinase [Homo sapiens] MKTAENIRGTGSDGPRKRGLCVLCGLPAAGKSTFARALAHRLQQEQGWAIGVVAYDDVMPDAFLAGARAR PAPSQWKLLRQELLKYLEYFLMAVINGCQMSVPPNRTEAMWEDFITCLKDQDLIFSAAFEAQSCYLLTKT AVSRPLFLVLDDNFYYQSMRYEVYQLARKYSLGFCQLFLDCPLETCLQRNGQRPQALPPETIHLMRRKLE KPNPEKNAWEHNSLTIPSPACASEASLEVTDLLLTALENPVKYAEDNMEQKDTDRIICSTNILHKTDQTL RRIVSQTMKEAKGNQEAFSEMTFKQRWVRANHAAIWRIILGNEHIKCRSAKVGWLQCCRIEKRPLSTG
>SECP43.HUMAN.gi|8923460|ref|NP_060316.1| tRNA selenocysteine 1-associated protein 1 [Homo sapiens] MAASLWMGDLEPYMDENFISRAFATMGETVMSVKIIRNRLTGIPAGYCFVEFADLATAEKCLHKINGKPL PGATPAKRFKLNYATYGKQPDNSPEYSLFVGDLTPDVDDGMLYEFFVKVYPSCRGGKVVLDQTGVSKGYG FVKFTDELEQKRALTECQGAVGLGSKPVRLSVAIPKASRVKPVEYSQMYSYSYNQYYQQYQNYYAQWGYD QNTGSYSYSYPQYGYTQSTMQTYEEVGDDALEDPMPQLDVTEANKEFMEQSEELYDALMDCHWQPLDTVS SEIPAMM
>OPtRNAsecSTHuman.gi|267844904|ref|NP_058651.3| O-phosphoseryl-tRNA(Sec) selenium transferase [Homo sapiens] MNRESFAAGERLVSPAYVRQGCEARRSHEHLIRLLLEKGKCPENGWDESTLELFLHELAIMDSNNFLGNC GVGEREGRVASALVARRHYRFIHGIGRSGDISAVQPKAAGSSLLNKITNSLVLDIIKLAGVHTVANCFVV PMATGMSLTLCFLTLRHKRPKAKYIIWPRIDQKSCFKSMITAGFEPVVIENVLEGDELRTDLKAVEAKVQ ELGPDCILCIHSTTSCFAPRVPDRLEELAVICANYDIPHIVNNAYGVQSSKCMHLIQQGARVGRIDAFVQ SLDKNFMVPVGGAIIAGFNDSFIQEISKMYPGRASASPSLDVLITLLSLGSNGYKKLLKERKEMFSYLSN QIKKLSEAYNERLLHTPHNPISLAMTLKTLDEHRDKAVTQLGSMLFTRQVSGARVVPLGSMQTVSGYTFR GFMSHTNNYPCAYLNAASAIGMKMQDVDLFIKRLDRCLKAVRKERSKESDDNYDKTEDVDIEEMALKLDN VLLDTYQDASS
>eEFsec.Human.SPP00000038_1.0 # Protein # Eukaryotic elongation factor (eEFSec) # Homo sapiens # Complete MAGRRVNVNVGVLGHIDSGKTALARALSTTASTAAFDKQPQSRERGITLDLGFSCFSVPL PARLRSSLPEFQAAPEAEPEPGEPLLQVTLVDCPGHASLIRTIIGGAQIIDLMMLVIDVT KGMQTQSAECLVIGQIACQKLVVVLNKIDLLPEGKRQAAIDKMTKKMQKTLENTKFRGAP IIPVAAKPGGPEAPETEAPQGIPELIELLTSQISIPTRDPSGPFLMSVDHCFSIKGQGTV MTGTILSGSISLGDSVEIPALKVVKKVKSMQMFHMPITSAMQGDRLGICVTQFDPKLLER GLVCAPESLHTVHAALISVEKIPYFRGPLQTKAKFHITVGHETVMGRLMFFSPAPDNFDQ EPILDSFNFSQEYLFQEQYLSKDLTPAVTDNDEADKKAGQATEGHCPRQQWALVEFEKPV TCPRLCLVIGSRLDADIHTNTCRLAFHGILLHGLEDRNYADSFLPRLKVYKLKHKHGLVE RAMDDYSVIGRSLFKKETNIQLFVGLKVHLSTGELGIIDSAFGQSGKFKIHIPGGLSPES KKILTPALKKRARAGRGEATRQEESAERSEPSQHVVLSLTFKRYVFDTHKRMVQSP
Inicialment la recerca del tRNAsec, es va realitzar inicialment amb el software tRNAscan-SE 1.21, però no funcionava correctament. El professor de l'assignatura Didac Santesmasses ens va proporcionar els resultats.