RESUM

L'objectiu d'aquest projecte de Bioinformàtica consisteix en determinar totes les selenoproteïnes del Nomascus leucogenys. Una selenoproteïna és un tipus de proteïna peculiar que incorpora en la seva seqüència d'aminoàcids una selenocisteïna. Aquesta selenocisteïna està codificada pel codó TGA, triplet que normalment la maquinària de traducció interpreta com a codó de terminació. Aquest fet, per tant, dificulta l'anotació de les selenoproteïnes. Per poder identificar les selenoproteïnes en Nomascus leucogenys s'ha comparat el genoma d'aquest organisme amb les seqüències de les selenoproteïnes humanes conegudes (EFSec, GPx, DI, MsrA, SBP2, SPS, Sel15, SelH, SelI, SelK, SelM, SelN, SelO, SelP, SelR, SelS, SelT, SelU, SelV, SelW i TR).

Per dur a terme l'anàlisi del genoma de Nomascus leucogenys s'ha dissenyat un programa que automatitza tot el procé des del tBLASTn fins a l'obtenció del t-coffee i la determinació de la presència d'elements SECIs. A més, l'estudi s'ha complementat amb altres eines bioinformàtiques com SelenoDB, NCBI i Selenoprofiles. S'ha determinat que totes les selenoproteïnes humanes i la maquinària necessària per a la seva traducció s'han conservat en el genoma de Nomascus leucogenys. No obstant, algunes selenoproteïnes com GPx1, GPx6 i SelV, romanen dubtoses.

ABSTRACT

The aim of this project is the research and identification of selenoproteins in Nomascus leucogenys. A selenoprotein is a kind of peculiar protein that incorporates in its aminoacid sequence a selenocysteine. This selenocysteine is codified by a TGA codon which usually traduction machinery interprets as a stop codon. Therefore, this dual action of TGA complicates the prediction and annotation of selenoproteins. To identify the selenoproteins in Nomascus leucogenys, its genome has been compared with known human selenoproteins sequences (eEFSec, GPx, DI, MsrA, SBP2, SPS, Sel15, SelH, SelI, SelK, SelM, SelN, SelO, SelP, SelR, SelS, SelT, SelU, SelV, SelW and TR).

In order to develop the Nomascus leucogenys genome analysis we have designed a program that automates from tBLASTn to the obtainment of t-coffee and the identification of SECIs elements. Moreover, the study has been complemented by other bioinformatic tools like SelenoDB, NCBI and Selenoprofiles. All human selenoproteins and translation machinery required for their translation, have been found in Nomascus leucogenys except some uncertain proteins like GPx1, GPx6 and SelV.