Família Lmsel1

La següent taula mostra els resultats de tot el procès en la cerca de selenoproteïnes en els 14 genomes dels protists en la família Lmsel1.

Resultats positus
Resultats negatius
Homòleg

Resultats tBLASTn

Per trobar selenoproteïnes de la família Lmsel1, hem partit de tres querys dels organismes Leishmania major, Leishmania infantum i Leishmania mexicana. Amb aquestes querys hem relitzat els tBLASTn amb els 14 genomes de protistes. Tant amb L.major com amb L.mexicana, ens han sortit hits significatius en els genomes de L.donovani i L.tarentolae. Per contra, amb L.infantum només n'hem obtingut a l'organisme L.donovani. En la resta de genomes de protists, el programa no ha trobat cap hit significatiu (<= 10-4).

Analitzant els resultats del BLAST acuradament, hem vist que en cada una de les querys només ens sortia un hit significatiu en cada genoma. En el cas de L.donovani amb les tres querys hem obtingut hits en una mateixa regió del contig36. Tanmateix, en el cas L.tarentolae amb les dues querys també ens han sortit hits pertanyents a una mateixa regió del contig96. A més a més, en tots els casos veiem la selenocisteïna de la query alineada amb TGA, i per tant, potencilament amb una selenocisteïna. En tots els casos veiem la selenocisteïna de la query alineada amb TGA, i per tant, potencialment amb una selenocisteïna

Abans d'avançar hem fet un alineament múltiple mitjançant T-Coffee amb les tres seqüències de les querys. L'alineament mostra que les seqüències són molt semblants entre elles, per la qual cosa hem decidit treballar només a partir d'aquest pas amb una query, perquè hem pensat que els resultats serien els mateixos i és una manera més eficient de treballar. Hem triat la seqüencia proteica de L.major, perquè és la única que es troba a una base de dades (NCBI).

Protists

Leishmania Donovani

Els resultats de l'Exonerate de L.Donovani amb Lmsel1 de L.major mostren un alineament que s'extén en gairebé en tota la extensió de la query, de la posició 1 a la 116 (la query té 117 aminoàcids). Podem veure que la selenocisteïna de la query s'alinea amb el codó stop TGA i que el gen en potencia està a la strand negativa. Al obtenir la seqüència proteica amb el Fastatranslate a partir del cDNA, hem fet un T-Coffee d'aquesta proteina amb la nostra query.

Hem vist que l'alineament és molt bo fins que arriba un punt on hi ha molts mismatches i gaps. De fet, l'últim tros de la proteïna traduida és completament diferent a la traducció que fa l'Exonerate. Amb un anàlisis exhaustiu de l'Exonerate, hem vist que hi ha un nucleòtid, una A a la posició 10244 del genoma, que l'Exonerate no ha tingut en compte alhora de fer l'alineament per tant, això fa que la traducció a proteïna de l'Exonerate tingui una pauta de lectura diferent a partir d'aquest punt que la que s'obté amb el Fastatranslate que sí té en compte la A.

Per tal de comprovar-ho, hem tret aquesta A del cDNA obtingut de L.Donovani, i al fer el T-Coffee amb la proteïna obtinguda i Lmsel1 de L.major hem vist que l'alineament és molt bo; presenta 104 matches de 117 aminoàcids que té la query i un score molt bo de 98 vS el score de 55 que presentava incloent la A.

D'altra banda, hem analitzat els resultats del Genewise i la A a la posició 10244 la alinea, però li manca una altra A sis nucleotids més enllà que es troba al genoma de L.donovani però que el programa posa un 1. Sense aquesta A, la pauta de lectura acaba sent com a l'Exonerate. Per visualitzar-ho hem fet un T-Coffee amb la proteïna Lmsel1 sense A i la proteïna que proporciona el Genewise. L'alineament mostra que les dues proteïnes són iguals excepte en 3 aminoàcids que es troben a la regió on manquen les dues A.

Per poder interpretar millor el que passa amb aquestes dues A el que hem fet ha estat repetir tot el procés amb les altres dues querys que haviem descartat en un principi.
El que hem fet per tal d'estudiar les A ha estat un T-Coffee amb les proteïnes obtingudes amb el Fastatranslate a partir de les querys de L.infantum i L.mexicana i amb la proteïna obtinguda per l'Exonerate amb A, i un altre T-Coffee amb les dues proteïnes i la proteïna obtinguda per l'Exonerate sense la A.

Estudiant els resultats T-Coffee, hem vist que les proteïnes de les querys de L.infantum i L.mexicana s'alineen molt millor amb la proteïna sense la A a la posició 10244 (score 98 vS 80 sense la A) tot i que l'Exonerate té en compte tots els nucleotids. Sembla que les proteïnes obtingudes amb L.infantum i L.mexicana presenten una inserció respecte la obtinguda a partir de L.major.

Analitzant els resultats de l'Exonerate (exonerate L.infantum i exonerate L.mexicana) i el cDNA (cDNA L.infantum i cDNA L.mexicana) hem arribat a la conclusió que els cDNA de la proteïna obtinguda amb L.infantum i L.mexicana presenten una duplicació d'una regió no existent en el genoma de L.donovani i que per tant, es deu tractar d'un error de l'Exonerate al ajuntar els exons. Al trobar-se la duplicació la pauta de lectura es corre en els dos casos quedant igual que la proteïna sense la A, i per tant donant lloc a un bon alineament.

El que està clar és que la pauta de lectura del genoma de L.Donovani seqüenciat no donaria lloc a una selenoproteïna. La nostra hipòtesis és que pot ser que es tracti d'un error de les tècniques d'ultraseqüènciació al tractar-se d'una regió amb moltes A. L'Exonerate i el Genewise detecten aquest frameshift i són capaços d'anotar la selenoproteïna sense tenir en compte l'error.

Per altra banda, hem trobat un element SECIS a la strand negativa a 3' del gen a la posició 9934 de la subseqüència obtinguda amb el Fastasubseq, a uns 150 nucleòtids del gen. Aquest element ha estat trobat amb el patró default, i presenta un COVE score de més de 15 per la qual cosa tenim evidències clares de la seva existència.

Per seguir aprofundint, hem fet un BLASTp de la proteina predita com a query contra la base de dades del NCBI no redundant i s'alinea amb un E-value molt bo de 3x10-49 amb la query de L.major donant més pes a la hipòtesis de que estem davant d'una selenoproteïna.

Leishmania Tarentolae

Els resultats de l'Exonerate de L.Tarentolae amb Lmsel1 de L.major mostren un alineament que s'extén en gairebé tota l'extensió de la query, de la posició 1 a la 114 (la query té 117 aminoàcids). Podem veure que la selenocisteïna de la query s'alinea amb un el codó stop TGA, i que el gen en potència està a la strand positiva. Tanmateix, podem observar com en l'alineament que ens fa l'Exonerate hi ha més d'un codó STOP. Concretament existeixen 3 codons STOP que comprometen la fucionalitat de la proteïna.

Al obtenir la proteïna amb el Fastatranslate a partir del cDNA , hem fet un T-Coffee d'aquesta proteina amb la query. Hem vist que l'alineament entre les dues proteïnes era bastant dolent; hi ha molts mismatches i gaps. Amb un anàlisis exhaustiu de l'Exonerate, hem vist que, a l'igual que passava en L.Donovani hi ha un nucleòtid, una A, a la posició 1339 del genoma, que l'Exonerate no ha tingut en compte alhora de fer l'alineament, per tant, això fa que la traducció a proteïna de l'Exonerate tingui una pauta de lectura diferent a partir d'aquest punt.

Per tal de comprovar-ho, hem tret aquesta A del cDNA obtingut de L.Tarentoale, i al fer l'alineament mitjançant el T-Coffee amb la proteïna obtinguda i Lmsel1 de L.major hem vist que l'alineament ha millorat; presenta 55 matches de 117 i un score molt de 93 vS 26 matches i un score de 88 que presentava incloent la A.

Per altra banda, hem analitzat els resultats del Genewise, i veiem com la selenocisteïna de la query s'alinea amb un codó STOP (TGA). Però com passava en el cas de l'Exonerate hem observat que hi ha més d'un codó STOP.

Pel que fa a la presència d'elements SECIS, n'hem trobat un que es troba entre la posició 1660 i 1759 de la subseqüència obtinguda amb el Fastasubseq. Degut a que el nostre gen es troba entre la posició 1250 i 1586, l'element SECIS es troba en posició 3'. Aquest element SECIS ha estat trobat amb el patró loose i presenta un COVE score de 14,43. El fet de buscar elements SECIS amb el patró loose pot donar lloc a l'aparició de falsos positius, amb la qual cosa aquest element SECIS podria ser un fals positiu. Per altra banda, aquest protist no presenta tRNAsec segons els resultats del programa tRNAscan-SE.

Degut a l'existència de més d'un codó STOP en la seqüència genòmica que ha de codificar per Lmsel1, la proteïna queda truncada i no és traduiïda en tota la seva longitud. El fet que quedi truncada podria afectar a la funcionalitat de la mateixa, per la qual cosa no podem afirmar que sigui una selenoproteïna tot i els resultats que hem obtingut.