Resum

Les selenoproteïnes són proteïnes que tenen l'aminoàcid selenocisteïna (Sec, U) en la seva seqüència. La selenocisteïna està codificada pel codó UGA, que normalment s'interpreta com un codó STOP. La presència d'un element SeCiS (SelenoCysteine Insertion Sequence) a la regió 3' permet que la maquinària de traducció incorpori una selenocisteïna quan troba un codó UGA. La doble codificació d'aquest codó és el que complica l'anotació de les selenoproteïnes, ja que els programes d'anotació automàtica de genomes interpreten els codons UGA com a STOP.

L'objectiu d'aquest treball és anotar les selenoproteïnes presents en el genoma de Pelodiscus sinensis, una tortuga de closca tova. El genoma d'aquesta espècie ha estat seqüenciat recentment i l'última versió és només un esborrany constituït per molts scaffolds separats amb força regions de seqüència indeterminada. Les selenoproteïnes s'han buscat i anotat mitjançant dos mètodes: amb el programa Selenoprofiles i manualment utilitzant diversos programes dissenyats per a l'anotació de genomes en general. El Selenoprofiles és una eina informàtica que automatitza la cerca per homologia de noves selenoproteïnes utilitzant una base de dades de seqüències de selenoproteïnes ja conegudes. En múltiples casos els resultats obtinguts amb els dos mètodes diferien en detalls de l'anotació i en alguns la localització predita per a la selenoproteïna era completament diferent.

Els resultats obtinguts s'han contrastat amb els coneixements previs sobre el selenoproteoma dels vertebrats. S'han trobat totes les selenoproteïnes esperades excepte la SelM. D'altra banda, s'han trobat la TR2, SelRB1, SelRB3 i SelW2 que, basant-nos en la literatura, no esperàvem trobar. Com a cas especial s'ha anotat la proteïna SelU1, que presenta una substitució de selenocisteïna a cisteïna que suggereix una localització a escala evolutiva diferent de la descrita anteriorment per a aquesta substitució. També s'han anotat les proteïnes de la maquinària de síntesi de selenoproteïnes. Aquestes proteïnes són necessàries per a sintetitzar selenoproteïnes i, per tant, el genoma de P. sinensis les havia de tenir.

Abstract

The seleoproteins are all those proteins that contain one or more selenocysteines (Sec, U). The aminoacid selenocysteine is coded by the codon UGA, which usually works as a STOP codon. The presence of a SeCiS (SelenoCysteine Insertion Sequence) element in the 3' region allows this codon to be translated into a Sec. This double meaning of the UGA codon makes the anotation of selenoproteins much more complicated, specially to the automatic algorithms designed for the anotation of regular proteins.

The endeavor of this project is the anotation of all the selenoproteins in the Pelodiscus sinensis genome. The genome of this species of soft shell turtle has been recently sequenced and is still only available as a collection of incomplete scaffolds. The search for selenoproteins has been carried out through two different methods: running the program Selenoprofiles and manually using multiple programs designed for the anotation of genomes. Selenoprofiles is an informatics tool designed to automatically anotate selenoproteins using, among other complementary strategies, a homology search with previously anotated selenoproteins. Usually the results obtained through both methods differred in the details of the anotation, in much rarer cases the localization of the predicted selenoprotein was entirely different.

The collected results were compared with the previous knowledge of the vertebrate selenoproteome. All expected selenoproteins were found except SelM. On the other hand, the selenoproteins TR2, SelRB1, SelRB3 and SelW2 were unexpectedly found to be coded in the P. sinensis genome. Moreover, a selenocysteine to cysteine substitution detected in the protein SelU1 suggests a different evolutionary substitution pattern than the previously described in the phylogeny of the vertebrate selenoproteome. The selenoprotein synthesis machinery has also been anotated. Those proteins are compulsory for the synthesis of selenoproteins, for this reason all had to be coded in the P. sinensis genome.