Materials i Mètodes


L'objectiu d'aquest estudi és el de buscar homòlegs de les famílies de selenoproteïnes SelI i MSP a genomes de protists que han estat recentment seqüenciats (la llista dels organismes es proporciona a l'apartat d'introducció). En aquest apartat es detalla el mètode que s'ha utilitzat per realitzar aquesta cerca així com totes les comandes, per al shell de UNIX, emprades per dur-lo a terme en el sistema operatiu Linux, versió Fedora Core.

Obtenció de les Querys


Per a la selenoproteïna SelI, vam fer una cerca de querys a la base de dades SelenoDB. Tanmateix, en aquesta base de dades només hi consten tres SelI, la d’Homo sapiens i la de Mus musculus, juntament amb un homòleg en Cis de Drosophila melanogaster. A més, també disposàvem de la SelI predita en un treball de l'any 2008 en l’organisme Phytophora infestans. Degut a que la selenoproteïna SelI no sembla ser molt abundant en protists, pel que havíem llegit en treballs d’altres anys, vam escollir com a query la SelI de P.infestans, ja que es tracta d’un organisme molt més proper filogenèticament amb els organismes que hem d’analitzar i vam pensar que seria molt més probable obtenir resultats més significatius amb aquesta query que no pas amb la d’Homo sapiens o Mus musculus. De totes maneres, en alguns casos dubtosos, vam realitzar l’anàlisi utilitzant com a query la SelI d'Homo sapiens.

Per a la selenoproteïna MSP, vam utilitzar la query proporcionada pels professors, que pertany a Dictyostelium discoideum AX4.

Les seqüències de les querys utilitzades són les següents:

>SelI de Phytophtora infestans MSNATYESETAVEASQIHALKQRVRHRSIGDGKSTYFGKYVSQEGSEKLRTYEYHGADNSLVYKVLTPM NNFLVKLLPLWLAPNLITLIGLILVGGSHTLFVFLCPFLVGDAPWWAMVVAALALFTYQTLDNLDGKQA RRTKSSSPLGLLFDHGCVALNVSVGTMTMASILQMGTTWRTLGFVLSGHFVFIFATWEYYSGSLELPLY NGPTEGYLIGIALKLVTAVVGVGFWNQEMIEGVQNNSLFVIVTMISSCFTLLVKYVGGLIFCIPAVRFA NLSMFCFITSVRNALHAVRLNQDSVLVAFTRLLPFVVINTLAGLWALYSPSDIFSTHPRMFLWMLGLLN SKLVLHLMLAHLCGEEYHPFRKTLVPIFYVAGHCAFCMVEGIYDAINEELIVREFFFLSLSAAVHIVIT VVWEVKNVLGVSVFTIPHSSKFKLKTNSKPAAKSSUFVGHAVG

>SelI de Homo sapiens MAGYEYVSPEQLAGFDKYKYSAVDTNPLSLYVMHPFWNTIVKVFPTWLAPNLITFSGFLLVVFNFLLMA YFDPDFYASAPGHKHVPDWVWIVVGILNFVAYTLDGVDGKQARRTNSSTPLGELFDHGLDSWSCVYFVV TVYSIFGRGSTGVSVFVLYLLLWVVLFSFILSHWEKYNTGILFLPWGYDISQVTISFVYIVTAVVGVEA WYEPFLFNFLYRDLFTAMIIGCALCVTLPMSLLNFFRSYKNNTLKLNSVYEAMVPLFSPCLLFILSTAW ILWSPSDILELHPRVFYFMVGTAFANSTCQLIVCQMSSTRCPTLNWLLVPLFLVVLVVNLGVASYVESI LLYTLTTAFTLAHIHYGVRVVKQLSSHFQIYPFSLRKPNSDULGMEEKNIGL

>MSP de D.discoideum_AX4 MSLFNLPKVDLGEDCEGGVUARPDESTPLISKTNDEEKANIGISSTSNSPQEEQTKKPLFISILTLLISI PALVGSUCWPVLIASLSGVAVSAGSVELAHSLTFAITLSILSNLAQYHFHKCKKRPSDRGHWIKFGPFYL TAIAVPLATFDILRHILVDNSIWTIHSFISPAAYRPGCENENITCLSVMGWFSAIVFTYTGYACLLVGTI WAADLIPKIKKVWTQLR

Tornar a dalt

Obtenció dels genomes


Els 14 genomes de protists a analitzar en aquest treball, que s'han seqüenciat en els últims anys, han estat proporcionats pels professors de l'assignatura. Aquests genomes es troben en una carpeta juntament amb els genomes analitzats en treballs d'anys anteriors. Aquest any hem analitzat aquells genomes que es troben a la carpeta 2012 accedint-hi amb la ruta següent:

/cursos/BI/genomes/protists/2012/nom_del_protist/genome.fa


Per tal de poder realitzar la cerca manual, prèviament s'han d'exportar els diversos programes que necessitem per a realitzar el treball mitjançant les següents comandes:

$ export PATH=/cursos/BI/bin/ncbiblast/bin:$PATH# per el NCBI Blast
$ cp /cursos/BI/bin/ncbiblast/.ncbirc ~/# per el NCBI Blast
$ export PATH=/cursos/BI/bin/exonerate/i386/bin:$PATH# per Exonerate
$ export WISECONFIGDIR=/cursos/BI/soft/wise-2.2.0/wisecfg# per GeneWise
$ export PATH=/cursos/BI/bin:$PATH # per GeneWise, t_coffee i fastaseqfromGFF.pl.

Tornar a dalt

Localització de la regió genòmica on es troba un gen amb BLAST


Per tal de fer un alineament local de les querys de les famílies de selenoproteïnes MSP i SelI contra tots els genomes presents a la carpeta de protists hem utilitzat la opció tBLASTn de BLAST, ja que tenim la seqüencia peptídica de les nostres querys i volem comprovar si el genoma conté aquesta proteïna.

$ blastall -p tblastn -i query.fa -d nombbddBLAST -o queryvsgenome.tblastn.fa

Per exemple:

$ blastall -p tblastn -i query.MSP.D.discoideum_AX4.fa -d /cursos/BI/genomes/protists/2012/S.arctica/genome.fa -o MSP.D.discoideumvsS.arctica.tblastn.fa


A l'argument -p hem d'indicar quin tipus de blast estem realitzant, que en aquest cas és tBLASTn. Query.fa és el fitxer que conté la query de la selenoproteïna que estem buscant, nombbddBLAST és el camí on es troba la base de dades de BLAST que en aquest cas és un fitxer fasta amb el genoma d'un dels 14 organismes, i queryvsgenome.tblastn.fa és l'estructura del nom que tindrà un fitxer de sortida dins el qual es vol que BLAST emmagatzemi els resultats de la cerca.

Per tal de realitzar el procediment de cerca amb BLAST més ràpidament hem realitzat un programa que ens ha permès d'automatitzar el procés:

#!/bin/bash
      export PATH=/cursos/BI/bin/ncbiblast/bin:$PATH
      cp /cursos/BI/bin/ncbiblast/.ncbirc

For genome in A.laibachii_Nc14 A.rara C.fasciculata D.discoideum_AX4 D.fasciculatum F.cylindrus G.niphandrodes I.multifiliis_strain_G5 L.donovani_BPK282A1 L.tarentolae P.capsici P.polycephalum S.arctica T.congolense ; do {
      blastdb=`grep $genome /cursos/BI/genomes/protists/genomes_list_and_info.tab | cut -f 4`
      blastall -p tblastn -i query.MSP.D.discoideum_AX4.fa -d $blastdb -o MSP.D.discoideumvs$genome.tblastn.fa
      blastall -p tblastn -i query.selI.P.infestans.fa -d $blastdb -o selI.P.infestansvs$genome.tblastn.fa
} done
 

D'aquesta manera, aquest programa es dirigeix automàticament a un fitxer que conté la llista de tots els genomes i talla la columna 4 per a posar-la dins de la comanda de blastall com a base de dades. Aquesta columna 4 conté la direcció d'on es troba la carpeta que conté el document fasta de cadascun dels 14 genomes a analitzar. Els resultats es guarden a un fitxer de sortida com s'ha comentat anteriorment.

Dels resultats obtinguts amb BLAST hem seguit amb l'anàlisi únicament amb aquells hits que són estadísticament significatius, és a dir que tenen un E-value menor a 10-4. Com que per la selenoproteïna SelI tots els hits obtinguts finalitzen abans de la regió que conté la selenocisteïna, s'han continuat els següents passos amb tots aquells hits significatius que es trobaven en contigs diferents. Per la selenoproteïna MSP hem continuat només amb aquells hits significatius, ja que en molts organismes no hem trobat cap hit i en els que n'hem trobat només n'hi ha un.

Tornar a dalt

Extracció de la regió genòmica que potencialment conté el gen


Com que els fitxers fasta on es troben els genomes dels diferents protists són arxius multifasta, primer s'ha d'extreure la seqüencia que conté la regió i posteriorment s'ha d'extreure la regió a partir de la seqüencia. Això és així, ja que fastasubseq només funciona sobre un fitxer fasta que contingui una única seqüència. Per tant, per tal d'extreure la seqüència que conté la regió genòmica que potencialment conté el gen, treballarem sobre el genoma de cada organisme present a la carpeta 2012 i realitzarem les comandes fastaindex i fastafetch. La comanda de fastaindex és la següents:

$ fastaindex /cursos/BI/genomes/protists/2012/Nom.protist/genome.fa nom.protist.index

Per exemple:

$ fastaindex /cursos/BI/genomes/protists/2012/S.arctica/genome.f a S.arctica.index

On nom.protista.index serà un fitxer on es guardarà el resultat del fasta index.

Per tal de realitzar el procediment de fastaindex més ràpidament hem realitzat un programent per tal d'automatitzar el procés:

#!/bin/bash

for genome in A.laibachii_Nc14 A.rara C.fasciculata D.discoideum_AX4 D.fasciculatum F.cylindrus G.niphandrodes I.multifiliis_strain_G5 L.donovani_BPK282A1 L.tarentolae P.capsici P.polycephalum S.arctica T.congolense ; do {
      blastdb=`grep $genome /cursos/BI/genomes/protists/genomes_list_and_info.tab | cut -f 4`
      fastaindex $blastdb $genome.index
} done
 

Fastaindex realment realitza un petit índex de totes les seqüències que conté el fitxer multifasta, i és per això que posteriorment s'ha de realitzar la comanda fastafetch per tal d'extreure la seqüència genòmica que conté la regió que potencialment té el gen que s'està analitzant. Per tal de realitzar el fastafetch es necessita la mateixa carpeta que conté els genomes, el fitxer resultant de fastaindex i els noms dels contigs en els que en tBLASTn s'havien obtingut hits estadísticament significatius. La comanda de fastafetch és la següent:

$ fastafetch /cursos/BI/genomes/protists/2012/Nom.protist/genome.fa nom.protist.index 'identificador' > selenoprot.nom.protist.fastafetch.fa

Per exemple:

$ fastafetch /cursos/BI/genomes/protists/2012/S.arctica/genome.fa S.arctica.index 'supercont1.499' > SelI.S.arctica.fastafetch.fa

Un cop ja tenim un fitxer fasta amb una única seqüència, ja podem procedir a extreure la regió genòmica que potencialment conté el gen que estem analitzant. Per a realitzar aquest procés necessitem el fitxer resultant de fastafetch i la posició inicial (dins del genoma del protist) i la longitud de la regió que volem extreure. La posició inicial l'extraiem del resultat de tBLASn i l'ampliarem uns 2000-3000 nucleòtids cap a la regió N-terminal, i la longitud de la regió a extreure serà d'uns 5000-8000 nucleòtids. La comanda a utilitzar serà la següent:

$ fastasubseq selenoprot.nom.protista.fastafetch.fa inici longitud > selenoprot.nom.protist.fastasubseq.fa

Per exemple:

$ fastasubseq SelI.S.arctica.fastafetch.fa 40000 6000 > SelI.S.arctica.fastasubseq.fa

L'extracció d'aquesta regió del genoma l'hem realitzat per tal de reduir el temps d'anàlisi amb el programa Exonerate. Aquest programa com més llarga sigui la seqüència a analitzar més trigarà en fer l'anàlisi, per tant, ens convé reduir la regió genòmica a analitzar.

Tornar a dalt

Anotació amb Exonerate i Genewise


Els programes Exonerate i Genewise permeten obtenir una predicció de l'estructura del gen. Tant l'un com l'altre, són programes que funcionen d'una manera similar, tot i que els resultats acostumen a diferir lleugerament. En aquest treball s'han realitzat les prediccions tan amb Exonerate com amb Genewise, però principalment s'han analitzat els resultats obtinguts amb Exonerate. Aquest programa alinea la seqüència nucleotídica de la query amb la regió del genoma que prèviament hem extret amb fasubseq, i en prediu la seva estructura exònica. és important remarcar que per tal de realitzar Exonerate, s'ha de substituir la U de la query per una X. La comanda d'Exonerate és la següent:

$ exonerate -m p2g --showtargetgff -q query.fa -t selenoprot.nom.protist.fastasubseq.fa > queryVSnom.protist.resultat_complet.exonerate.fa

Per exemple:

$ exonerate -m p2g --showtargetgff -q query.selI.P.infestans.fa -t SelI.S.arctica.fastasubseq.fa > selI.P.infestansVSS.arctica.resultat_complet.exonerate.fa

Del resultat obtingut de l'anàlisi d'Exonerate, ens interessa especialment les posicions on es troben cadascun dels exons predits pel programa. és per això que generem també un fitxer on es recullen els exons de cada predicció que ens servirà després per a reconstruir la seqüencia codificant de la proteïna. La comanda que s'utilitza per obtenir-ho és a següent:

$ exonerate -m p2g --showtargetgff -q query.fa -t selenoprot.nom.protist.fastasubseq.fa | egrep -w exon > queryVSnom.protist.exonerate.gff

Per exemple:

$ exonerate -m p2g --showtargetgff -q query.selI.P.infestans.fa -t SelI.S.arctica.fastasubseq.fa | egrep -w exon > selI.P.infestansVSS.arctica.exonerate.gff

Per tal de realitzar l'anàlisi amb Exonerate més ràpidament hem realitzat un programent per tal d'automatitzar el procés:

#!/bin/bash

      export PATH=/cursos/BI/bin/exonerate/i386/bin:$PATH

for genome in A.laibachii_Nc14 A.rara C.fasciculata D.discoideum_AX4 D.fasciculatum F.cylindrus G.niphandrodes I.multifiliis_strain_G5 L.donovani_BPK282A1 L.tarentolae P.capsici P.polycephalum S.arctica T.congolense ; do {
      exonerate -m p2g --showtargetgff -q query.selI.P.infestans.fa -t SelI.$genome.fastasubseq.fa > selI.P.infestansVS$genome.resultat_complet.exonerate.fa

      exonerate -m p2g --showtargetgff -q query.selI.P.infestans.fa -t SelI.$genome.fastasubseq.fa | egrep -w exon > selI.P.infestansVS$genome.exonerate.gff

      exonerate -m p2g --showtargetgff -q query.MSP.D.discoideum_AX4.fa -t MSP.$genome.fastasubseq.fa > MSP.D.discoideum_AX4VS$genome.resultat_complet.exonerate.fa

      exonerate -m p2g --showtargetgff -q query.MSP.D.discoideum_AX4.fa -t MSP.$genome.fastasubseq.fa | egrep -w exon > MSP.D.discoideum_AX4VS$genome.exonerate.gff
} done
 

A partir del fitxer, en format GFF, creat amb les anotacions de les posicions dels exons predits per Exoneate obtenim la seqüencia de cDNA corresponent en format fasta utilitzant un programa perl anomenat fastaseqfromGFF.pl. La comanda utilitzada és la següent:

$ fastaseqfromGFF.pl selenoprot.nom.protist.fastasubseq.fa queryVSnom.protist.exonerate.gff > query.nom.protist.cdna.fa

Per exemple:

$ fastaseqfromGFF.pl SelI.S.arctica.fastasubseq.fa selI.P.infestansVSS.arctica.exonerate.gff > SelI.S.arctica.cdna.fa

Ara bé, hem analitzat els resultats de Genewise quan els resultats d'Exonerate no eren bons, s'havien de corroborar o no obteníem cap predicció, ja que Genewise ofereix una alternativa a Exonerate. Aquest programa compara una seqüència proteica amb una seqüencia d'ADN, donant com a resultat la predicció de l'estructura exònica, la seqüència codificant de la proteïna predita i la traducció a la seqüencia proteica. Per tant aquest programa no requereix l'ús de fastaseqfromGFF ni fastatranslate. Genewise, a diferència d'Exonerate, necessita que li indiquem si la seqüència utilitzada es tracta de la cadena forward o la cadena reverse, ja que depenent del sentit en el qual es trobi la seqüencia, canviarà completament la lectura dels triplets, i per tant dels codons. Per evitar errors en aquest punt, s'utilitza l'opció -both a la comanda de Genewise, que ens estalvia el fet d'indicar el sentit de la seqüència. La comanda utilitzada per a l'execució de Genewise és la següent:

$ genewise -pep -pretty -cdna -gff -both query.fa selenoprot.nom.protist.fastasubseq.fa > queryVSnom.protist.genewise.gff

Per exemple:

$ genewise -pep -pretty -cdna -gff -both query.selI.P.infestans.fa SelI.S.arctica.fastasubseq.fa > SelI.P.infestansVSS.arctica.genewise.gff

Per tal de realitzar l'anàlisi amb Genewise més ràpidament també hem realitzat un programent per tal d'automatitzar el procés:

#!/bin/bash

      export WISECONFIGDIR=/cursos/BI/soft/wise-2.2.0/wisecfg

for genome in A.laibachii_Nc14 A.rara C.fasciculata D.discoideum_AX4 D.fasciculatum F.cylindrus G.niphandrodes I.multifiliis_strain_G5 L.donovani_BPK282A1 L.tarentolae P.capsici P.polycephalum S.arctica T.congolense ; do {
      genewise -pep -pretty -cdna -gff -both query.selI.P.infestans.fa SelI.$genome.fastasubseq.fa > SelI.P.infestansVS$genome.genewise.gff

      genewise -pep -pretty -cdna -gff -both query.MSP.D.discoideum_AX4.fa MSP.$genome.fastasubseq.fa > MSP.D.discoideum_AX4VS$genome.genewise.gff

} done


Tornar a dalt

Traducció de la seqüencia de cDNA a seqüència proteica


Per tal d'obtenir la seqüencia proteica de la proteïna predita a partir del cDNA que hem obtingut en els passos anteriors, s'utilitza la comanda fastatranslate. Aquest tradueix el cDNA a seqüencia proteica en els 6 Open Reading Frames possibles (ORFs). La comanda del fastatranslate és la següent:

$ fastatranslate query.nom.protist.cdna.fa > query.nom.protist.aa.fa

Per exemple:

$ fastatranslate SelI.S.arctica.cdna.fa > SelI.P.infestans.S.arctica.aa.fa

A continuació com que fastaranslate dóna els 6 ORFs possibles, hem d'analitzar el fitxer que ens ha creat i escollir aquella pauta de lectura que sigui millor. Per tal de decidir quina és la pauta de lectura correcte, analitzem cadascun dels 6 ORFs i aquell que tingui predit menys codons STOP i que no els tingui al principi de la proteïna (a no ser que la nostra selenoproteïna contingui al selenocisteïna al principi de la seqüencia), serà la millor pauta de lectura. Un cop determinada la millor pauta de lectura s'eliminen la resta. En el cas de que hi hagi dues pautes de lectura que siguin igual de bones les seleccionem les dues i les guardem en documents diferents per prosseguir l'anàlisi amb les dues proteïnes predites.

Tornar a dalt

Alineament global amb Tcoffee de la proteïna predita i la query


Amb l'objectiu de realitzar un alineament global, utilitzem el programa Tcoffee (Tree-based Consistency Objective Function for alignment Evaluation). Aquest programa alinea la seqüencia traduïda de la proteïna predita i la query. Per tal d'executar el programa Tcoffee s'ha d'escriure la següent comanda al terminal:

$ t_coffee query.fa query.nom.protist.aa.fa > query.nom.protist.aa.tcoffee.txt

Per exemple:

$ t_coffee query.selI.P.infestans.fa SelI.P.infestans.S.arctica.aa.fa > SelI.P.infestans.S.arctica.tcoffee.txt

A part del fitxer .txt que generem al redireccionar els resultats, el programa també ens genera un fitxer .html que també guardarem, ja que ens proporciona l'alineament amb una llegenda de colors que és molt més fàcil i clar d'interpretar.

Tornar a dalt

BLASTp contra la base de dades no-redundant NCBI


Amb aquest procediment el que busquem és comprovar si la proteïna que hem predit té algun homòleg en altres espècies mitjançant una cerca BLASTp contra el conjunt no redundant de totes les proteïnes disponibles a NCBI. Aquesta cerca la podem realitzar tant accedint a la pàgina web de NCBI com mitjançant una comanda amb linux.

Per tal de poder utilitzar el programa primer s'ha d'exportar el programa amb la comanda:

$ export PATH=/cursos/BI/bin/netblast/bin:$PATH

La comanda és la següent:

$ blastcl3 -p blastp -i query.nom.protist.aa.fa -d nr

Per exemple:

$ blastcl3 -p blastp -i SelI.P.infestans.S.arctica.aa.fa -d nr

Tornar a dalt

Alineament múltiple amb Tcoffee


Per tal de realitzar l'alineament múltiple, hem accedit a la pàgina web del Tcoffee i en el requadre on posa "enter or paste a set of sequences in any supported format" hem introduït totes aquelles seqüències corresponents a les proteïnes que volíem comparar mitjançant un alineament múltiple. Hem guardat aquells resultats obtinguts que es donaven en forma de document Clustal W, i el que és més important, els em guardat en un fitxer que tingués terminació .aln.

Posteriorment , em descarregat el programa Jalview d'internet, programa el qual ens permet editar l'alineament múltiple obtingut. Amb aquest programa hem obert el fitxer amb extensió .aln que anteriorment havíem guardat. D'aquesta manera hem pogut editar els colors de l'alineament, els quals hem escollit els colors Clustal, i hem pogut guardar la imatge resultant en format .png.

Tornar a dalt

Cerca d'elements SECIS


Amb el programa SECISearch es pot esbrinar si les possibles selenoproteïnes predites contenen elements SECIS en la regió 3' del gen a analitzar com a possible selenoproteïna. El programa SECISearch es basa en la localització dels possibles elements SECIS a través de la valoració de la seva estructura tridimensional.

En el programa apareixen diversos paràmetres que defineixen variables implicades en l'estructura dels elements SECIS a partir de la seqüència genòmica. Es comença utilitzant els criteris més restrictius i, si no s’obtenen resultats, es poden anar modificant progressivament aquests paràmetres per a tenir criteris menys restrictius i per tant comptar amb mes possibilitats de trobar aquests elements. Tanmateix, basem la nostra cerca únicament en els paràmetres que venen per defecte en el software sense modificar-los, ja que aquesta és la única manera d'estar segurs que els resultats que trobem són reals. Modificar els paràmetres perquè surtin elements SECIS fa que aquests elements predits siguin menys fiables i, per tant, no ens interessa.

Tornar a dalt

Cerca de la maquinària de traducció i síntesi


Per a buscar maquinària de traducció hem realitzat el mateix procediment de anàlisis que en la cerca de selenoproteïnes. Hem buscat querys de les principals proteïnes implicades en el procés de traducció i síntesi de selenoproteïnes a la base de dades del NCBI: Secp43, Pstk, SBP2, SPS2, SecS i eEFsec. La majoria de querys utilitzades són del genoma de Homo sapiens, de Mus musculus o de Drosophila melanogaster, tot i que per a alguna de les proteïnes hem trobat querys provinents de protists. En algunes de les proteïnes hem utilitzat més d'una query (sobretot si aquestes eren de genomes molt allunyats filogenèticament) mentre que en d'altres hem utilitzat una sola query de referència.

En concret, les querys utilitzades en la maquinària de traducció són:

Per a la proteïna Pstk, la query utilitzada ha estat d'Homo sapiens; i en alguns protistes (L. Donovani, L. Tarentolae, T. Congolense i C. Fasciculata) la query usada és de Trypanosoma cruzii.

>Pstk d'Homo sapiens MKTAENIRGTGSDGPRKRGLCVLCGLPAAGKSTFARALAHRLQQEQGWAIGVVAYDDVMPDAFLAGARA RPAPSQWKLLRQELLKYLEYFLMAVINGCQMSVPPNRTEAMWEDFITCLKDQDLIFSAAFEAQSCYLLT KTAVSRPLFLVLDDNFYYQSMRYEVYQLARKYSLGFCQLFLDCPLETCLQRNGQRPQALPPETIHLMGR KLEKPNPEKNAWEHNSLTIPSPACASEASLEVTDLLLTALENPVKYAEDNMEQKDTDRIICSTNILHKT DQTLRRIVSQTMKEAKGNQEAFSEMTFKQRWVRANHAAIWRIILGNEHIKCRSAKVGWLQCCRIEKRPL STG

>Pstk de Trypanosoma cruzii MRICLVLLSGLPGAGKTTLSLAIQRLSEQVTTEGERSNSRHGGVVEAVLELDTFISSYEERDGTQRNGS NFSPEAWRRACDEVREATFQRIRQCLLNPEKKRGRNMSSTTTRFVFLVDTLPYRSMRASYWKLCRDLGK EQFQHKLERDGVMNKCDGRVPFDAVFVNMVEIRLNTPIEICLERNERRTETPQYVPPHVIKNMGGSFDV GVDTSAKFSADDNCWVVSPRQASTPWPVIWLEEVKTNCCLPPAALAQKLLERLHSPEVMGELEKQSASF FEAEVKRRERERCDHDQPQEGDAAKASRSDWLHQVDLRLRAVVQQYMKEFKKSGKLLPGTGALVSKCRE EQYAQVKAMLACRQDDEAFDARKETLLHDLLLEFERKLLAL

Pel que fa a Secp43 hem utilitzat la query de Mus musculus:

>Secp43 de Mus musculus MAASLWMGDLEPYMDENFISRAFATMGETVMSVKIIRNRLTGIPAGYCFVEFADLATAEKCLHKINGKP LPGATPAKRFKLNYATYGKQPDNSPEYSLFVGDLTPDVDDGMLYEFFVKVYPSCRGGKVVLDPTGVSKG YGFVKFTDELEQKRALTECQGAVGLGCKPVRLSVAIPKASRVKPVEYSQMYSYSYNQYYQQYQNYYAQW GYDQNTGSYSYSYPQYGYTQSTMQTYEEVGDDALEDPAPQLDVTEANKEFMEQSEELYDALMDCHWQPL DTVSSEIPAMM

Per eEFsec hem utilitzat la query de Drosophila melanogaster:

>eEFsec de Drosophila melanogaster MPINFNIGLLGHVDSGKTTLAKALSSISSTAAFDKNPQSVERGITLDLGFSGLLVDAPAHLPQGEQLQF TFVDCPGHASLIRTIIGGAQIIDLMLLVVDAQKGKQTQTAECLIIGELLQKKLIVVINKIDVYPENQRA SKLEKLRLRLAKTLEATTFGGQVPICAVSALQGTHIAELREVLREAYFQPQRNLADPLFMYVDHCFGIK GQGTVCTGTLLQGKVQVNNVIELPALGEQRKVKSIQMFRKNVTSASMGDRIGLCVTQFNAKLLERGIIT QPGYLKPIYAVCLQFKPIRYYKEVIKSMRKMHISVGHNTVMANVTLFRDTDGTTSTFQLDKEYEYMEDV QPAEVQHNDVIYALLQFESPVLSPPHSTLIASKLDMDVHSTSCRLAFWGRIAWQTHSSKYFQEELPKLR IFKRKQKVGSIQRVVNSSEVIVQNLFKDAKRDLYVGKNVELSTGEKGRIERTFGQTSKVAITFQDALSP ETISNVKNVKVLLNCKKYVFNKQAGLFQ

En el cas de SecS tenim la query provinent deDyctiostelium discoideum:

>SecS de Dyctiostelium discoideum MNLKNLETCKGLIKGSYIDQAIQGTSQFNKLLETLLIHKKLPNIGYNDKIIELILNEISLMDSNNFIEN IGVGEREGRIYSGLVEKRHYGFAHGIGRSGDITEQQPKAAGSSLIQKLTHSLVLDAMKLAGLEQSSLSN CLLLPMATGMTLALTMLTLKSINANNKRYVLWPRIDQKSCLKSIITAGLIPIVIPNQLDGDMIRTDLVA IEDKIKELGVDNILCVFSTTSCFAPRVPDKIIEISEICKRYNIGHIINNAYGLQCSKILHNISQACKLG RVDAFIQSTDKNFMVPVGGAIISGPNSEFIDQISRNYPGRANSSPILDVFITLLSMGKQGWLNLLKERK ELLIYFNEQLSKFALENNEKLLNTINENKISFALTLSSNNFNNNEEIISNNNNNNNNTFSMIGSKLFSR SCSGSRVIDLKSNKKLLIGGLEFNNYGSHIDNYSTSYLTVACAIGITKLEIDTFIQRLSKLFNKK

En el cas de SPS2 hem utilitzat una query de Homo sapiens exceptuant el protista A.Laibachii en que la query és de Anopheles gambiae i A.rara en que la query és de Drosophila.

>SPS2 d'Homo sapiens MAEASATGACGEAMAAAEGSSGPAGLTLGRSFSNYRPFEPQALGLSPSWRLTGFSGMKGUGCKVPQEAL LKLLAGLTRPDVRPPLGRGLVGGQEEASQEAGLPAGAGPSPTFPALGIGMDSCVIPLRHGGLSLVQTTD FFYPLVEDPYMMGRIACANVLSDLYAMGITECDNMLMLLSVSQSMSEEEREKVTPLMVKGFRDAAEEGG TAVTGGQTVVNPWIIIGGVATVVCQPNEFIMPDSAVVGDVLVLTKPLGTQVAVNAHQWLDNPERWNKVK MVVSREEVELAYQEAMFNMATLNRTAAGLMHTFNAHAATDITGFGILGHSQNLAKQQRNEVSFVIHNLP IIAKMAAVSKASGRFGLLQGTSAETSGGLLICLPREQAARFCSEIKSSKYGEGHQAWIVGIVEKGNRTA RIIDKPRVIEVLPRGATAAVLAPDSSNASSEPSS

>SPS2 d'Anopheles gambiae MFKPESYGLSHDFRLTKFSTLRGUGSKVPQDVLNRLLAGVYGEQLGDKDGKGPNKEEGVGIGLDSSVIA LKHDLFLVQSVDFFYPLIDDPFMLGKIALANVVSDVFAVGATEIDQIKLIVTAPTEFTEQEREVVVPMV MQGFLEAAKACNAPVQIGSIAENPWCVIGGAASAVCHRSELIMPYNAQPGDALVLTKPLGTQLATNAYI WMGEQQSDSWAQLRERFTVADIEQTYRIALESMSRLNKTGAELMKKYGAHAATDVTGFGLYGHAENLAS HQTADVDFHLDTLPIIKNVREIAETLGRGAKLLAGKAVETSGGLLICLPREAAAGFCEEYRRCTKHEAW IVGHVEKGARGVKMNPNLNILSVE

>SPS2 de Drosophila melanogaster MFQPEKHGLEPDFQLTKFTTHTGUSCKIPQKVLEKYLRGTEIENKNNDGYLIGSGMDCAVIPLKRHKDY LLIQTVDFFYPMVNDPELLGRIALANVLSDVYAVGVTQFDTVEMIVSTSTSFSEKERDVVIGLVMKGFQ NSLKANGYRNTPLIIRQLKINPWCIIGGIATSVCRSEEIILPSNAQPGDVLVLTKPLGGQMAMDAHLWQ LNQTEKYKKLLSECSDADIKETFEIAVKSMTYLNKNAALLMHKYQAHCATDITGFGLLGHANNLAQFQK EKVLFQINKLPIIKNVLKFSTLVGQSTKFRSGRSVETSGGLLICLPADAADKFCRDFEEATNGEQKSFQ IGHVTAANESDAVLCEDVEFIEVSL

Finalment per a SBP2 s'ha utilitzat la query de Mus musculus per a la majoria d'organismes, excepte per a S.arctica i P.polycephalum, on s'ha utilitzat la query d'Homo sapiens; i en el cas de L.tarentolae s'ha fet servir la query de Drosophila melanogaster

>SBP2 de Mus muaculus MASERPREPDGEDSIKLSADVKPFVPKFAGLNVAWSESSETRVFPGCAATYYPFVQEPPAAEQKMYPED MAFGAPTFPAQYVSSEIALHPFAYPTYTLESAQSVCSVPTLQYDYSQARCHPGFRTAKPRHEHVCPPPQ EAKGVFKKKPSDERRACEEQKSSSRRADNAVPCEARPARGSSHLSSRTESSLKSDGYHKRPDRKSRILA KSASTSKPEFEFSRLDFPELQSPKNSNMPETQKPPRWGPLGPAASNMPLLGDVGKPVADMVEGKMVKSD HTDGAVTSNATTSSPSCTQELSWTPMGYIVRQTVSSDSAAATENVTSMINLKKTTSSADAKNVSVTSEA LSSNPSYNREKRVYPAPKAKASQGGELEQNESSKKNKKKKEKSKPSYEVLTVQEPPRIEDAEEFPNLSV ASERRHRGQSPKLHSKQQTQNEFKTSGKKSQVPVQLDLGGMLAALEKQQQQQHASHAKPSSRPVVFSVG AVPVLSKDASSSERGRRSSQMKTPHNPLDSSAPLMKKGKQREIPKAKKPTSLKKIILKERQERMQQRLQ ESAVSLTVASDDSQDVESGASNQTPSQDNPTGPEKTEESVSSTPVVEGESEEPAGTEFQRDPEACQPAP DSATFPKIHSRRFRDYCSQMLSKEVDACVTGLLKELVRFQDRMYQKDPVKAKTKRRLVLGLREVLKHLK LRKLKCIIISPNCEKTQSKGGLDDTLHTIIDCACEQNIPFVFALNRKALGRSLNKAVPVSIVGIFSYDG AQDQFHKMVELTMAARQAYKTMLETMRQEQAGEPGPQSPPSPPMQDPIPSTEEGTLPSTGEEPHYIEIW KKHLEAYSQRAL ELEDSLEASTSQMMNLNL

>SBP2 d'Homo sapiens MASEGPREPESEGIKLSADVKPFVPRFAGLNVAWLESSEACVFPSSAATYYPFVQEPPVTEQKIYTEDM AFGASTFPPQYLSSEITLHPYAYSPYTLDSTQNVYSVPGSQYLYNQPSCYRGFQTVKHRNENTCPLPQE MKALFKKKTYDEKKTYDQQKFDSERADGTISSEIKSARGSHHLSIYAENSLKSDGYHKRTDRKSRIIAK NVSTSKPEFEFTTLDFPELQGAENNMSEIQKQPKWGPVHSVSTDISLLREVVKPAAVLSKGEIVVKNNP NESVTANAATNSPSCTRELSWTPMGYVVRQTLSTELSAAPKNVTSMINLKTIASSADPKNVSIPSSEAL SSDPSYNKEKHIIHPTQKSKASQGSDLEQNEASRKNKKKKEKSTSKYEVLTVQEPPRIEDAEEFPNLAV ASERRDRIETPKFQSKQQPQDNFKNNVKKSQLPVQLDLGGMLTALEKKQHSQHAKQSSKPVVVSVGAVP VLSKECASGERGRRMSQMKTPHNPLDSSAPLMKKGKQREIPKAKKPTSLKKIILKERQERKQRLQENAV SPAFTSDDTQDGESGGDDQFPEQAELSGPEGMDELISTPSVEDKSEEPPGTELQRDTEASHLAPNHTTF PKIHSRRFRDYCSQMLSKEVDACVTDLLKELVRFQDRMYQKDPVKAKTKRRLVLGLREVLKHLKLKKLK CVIISPNCEKIQSKGGLDDTLHTIIDYACEQNIPFVFALNRKALGRSLNKAVPVSVVGIFSYDGAQDQF HKMVELTVAARQAYKTMLENVQQELVGEPRPQAPPSLPTQGPSCPAEDGPPALKEKEEPHYIEIWKKHL EAYSGCTLELEESLEASTSQMMNLNL

>SBP2 de Drosophila melanogaster MFQPEKHGLEPDFQLTKFTTHTGUSCKIPQKVLEKYLRGTEIENKNNDGYLIGSGMDCAVIPLKRHKDY LLIQTVDFFYPMVNDPELLGRIALANVLSDVYAVGVTQFDTVEMIVSTSTSFSEKERDVVIGLVMKGFQ NSLKANGYRNTPLIIRQLKINPWCIIGGIATSVCRSEEIILPSNAQPGDVLVLTKPLGGQMAMDAHLWQ LNQTEKYKKLLSECSDADIKETFEIAVKSMTYLNKNAALLMHKYQAHCATDITGFGLLGHANNLAQFQK EKVLFQINKLPIIKNVLKFSTLVGQSTKFRSGRSVETSGGLLICLPADAADKFCRDFEEATNGEQKSFQ IGHVTAANESDAVLCEDVEFIEVSL

Amb les querys, hem buscat en el genoma de tots els nostres protists, mitjançant el programa tBLASTn, els possibles hits que ens revelin la presència d'aquestes proteïnes en els genomes. Si els resultats del tBLASTn mostren hits significatius que poden indicar la presència de la proteïna, seguim amb el procediment d’anàlisi. Mitjançant els anàlisis amb els programes Exonerate o Genewise hem buscat l'estructura dels gens, i amb el programa Tcoffee hem alineat les proteïnes predites amb les querys originals.

Tornar a dalt