Iniciem la cerca de la selenoproteïna MsrA al genoma de
P. capsici realitzant un tBLASTn
(veure blast) amb la query corresponent a l'homòleg amb Cys d'
Homo sapiens. El blast ens reporta dos hits estadísticament significatius (e-value 2e-36 i 2e-34, respectivament), ambdós situats en el mateix contig (PHYCAscaffold_15). En aquests, veiem que la cisteïna de la query queda alineada amb una cisteïna, per tant, estaríem davant un possible cas d'homòleg de MsrA amb cisteïna.
L'anàlisi amb l'Exonerate i el GeneWise dels hits ens dóna uns resultats molt similars (que no idèntics) per a la predicció de la proteïna per a cada hit.
Amb l'Exonerate
(veure hit 1) (veure hit 2), igual com amb el tBLASTn, obtenim dos alineaments diferents dins del mateix contig; un d'un raw score de 343 (hit 1) i l'altre de 324 (hit 2) que, a més, es troba situat a la cadena reversa i complementària [revcomp]. Per tant, podem començar a deduïr que ens trobem davant de dues proteïnes homòlogues amb Cys situades cadascuna a una hebra del genoma de
P. capsici. Les proteïnes predites per a cada hit amb el programa són:
Hit 1:
NVATFAAGCFWGVQLAFDRVPGVLETSVGYTQGSVDSPTYRQVCTGRTNHAEAINIVFDD
SQVSYDALLKKFWSIHDPTTLNRQKNDKGTQYRSGIYYHNDDQRKAALASKEEYQKTLSK
PIVTEIMEAKQFWDAEDYHQKYLEK
Hit 2:
SIATFAAGCFWAVQRSFDNVPGVIATSVGYAQGKTENPTYRTVVTGRTNHAESIKITFDE
SQVTYEELLKVFWSIHDPTSLNRQEGDVGTQYRSGIYYQDEEQHKIALKSKDEHQKTLDK
PIVTEIEAAKTFWDAEEAHQKYLEKGGN
Aquesta sospita la seguim mantenint amb el resultat del GeneWise
(veure GenWise hit1 i hit2). Durant tot el treball hem anat veient que el programa ens reporta dues seqüències proteiques diferents per a un mateix hit (una seqüència per a cada cadena). Aquestes dues seqüències sempre són molt diferents ja que cadascuna correspon a una de les hebres, i, normalment, la proteïna acostuma a trobar-se només a una d'elles. En aquest cas el GeneWise, però, ens reporta dues proteïnes similars. De manera que també ens fa pensar que la proteïna en qüestió es troba a les dues hebres.
Hit 1:
VATFAAGCFWGVQLAFDRVPGVLETSVGYTQGSVDSPTYRQVCTGRTNHAEAINIVFDDS
QVSYDALLKKFWSIHDPTTLNRQKNDKGTQYRSGIYYHNDDQRKAALASKEEYQKTLSKP
IVTEIMEAKQFWDAEDYHQKYLEK
Hit 2:
IATFAAGCFWAVQRSFDNVPGVIATSVGYAQGKTENPTYRTVVTGRTNHAESIKITFDES
QVTYEELLKVFWSIHDPTSLNRQEGDVGTQYRSGIYYQDEEQHKIALKSKDEHQKTLDKP
IVTEIEAAKTFWDAEEAHQKYLEKGGNCSDKGSDVQC
Un cop extreta aquesta conclusió, passem a analitzar cada hit per separat. La proteïna predita pels dos programes anteriors a partir del hit 1 és gairebé idèntica, la única diferència es troba en un aminoàcid de més en el cas de l'Exonerate. La proteïna predita a partir del hit 2, en canvi, s'obté amb uns 10 aminoàcids més quan és predita pel GeneWise que per l'Exonerate. Per tant, veiem com no hi ha gaire diferència entre les proteïnes predites pels dos programes.
Per a comprovar la hipòtesi, analitzem la seqüència obtinguda amb el fastasubseq
(veure). Al fer-ho ens adonem d'un resultat sorprenent, ja que buscant les seqüències dels hits, trobem la corresponent al hit 1 i veiem que uns nucleòtids abans es troba la seqüència complementària i reversa corresponent al hit 2. A més, veiem que ambdues seqüències són molt similars (tenint en compte que una és la complementària i reversa de l'altra), de manera que podem anar mantenint la nostra sospita en quant a la presència de les dues proteïnes en aquest genoma, estant cadascuna a una cadena diferent. Si seguim analitzant la semblança entre els dos hits mitjançant un T-COFFEE
(veure) entre les seqüències proteiques predites per l'Exonerate de cadascun dels hits ens adonem que ambdós hits són gairebé idèntics, i que, per tant, el més probable deu ser que es tracta de la mateixa proteïna que ha duplicat i ha passat a estar a l'altra hebra del genoma.
Tot i aquestes conclusions, no podem saber si les dues proteïnes són funcionals o bé si s'ha produït una duplicació d'una hebra a l'altra essent aquesta última una proteïna no funcional.
Al realitzar un T-COFFEE amb cadascuna de les proteïnes predites per l'Exonerate
(veure T-COFFEE hit1) (veure T-COFFEE hit2) observem que obtenim dos alineaments amb un score molt bo, fet que, juntament amb el T-COFFE comentat anteriorment entre els dos hits, fa pensar que probablement es tracti de dues proteïnes funcionals donat que tenen una seqüència tant similar. Tot i així, no podem descartar que la duplicació sigui relativament recent i que la proteïna obtinguda amb la duplicació no sigui funcional però no hagi tingut temps suficient per a poder adquirir mutacions.
Com hem dit, els dos programes que ens permeten predir la possible proteïna (GeneWise i Exonerate) ens donen resultats molt similars, de manera que decidim fer córrer un BLASTp amb cadascuna de les proteïnes predites pel GeneWise (hit 1 i hit 2) per veure si podem sortir de dubtes.
El BLASTp obtingut pel hit 1
(veure blastp hit1) ens dóna un hit molt bo (90% d'identitat) corresponent a una proteïna de
P. sojae (organisme molt proper a
P. capsici) que conté un domini PMSR. Veiem, com ja esperàvem, que pel hit 2
(veure blastp hit2) també ens surt com a millor hit (85% d'identitat) la mateixa proteïna.