El nostre treball tenia com a objectiu anotar les selenoproteïnes presents en el genoma de Rousettus aegyptiacus mitjançant eines bioinformàtiques. Per fer-ho, vam utilitzar el genoma d’espècies properes a la nostra, ja que en els eucariotes les selenoproteïnes presenten un grau elevat d’homologia entre espècies. La majoria de selenoproteïnes les vam obtenir de Pteropus vampyrus (que és la espècie més propera a la nostra per la qual s’han anotat i s’han descrit correctament ja les selenoproteïnes). També vam agafar algunes altres proteïnes de genomes propers com el de Felis catus, Canis lupus i Equus caballus. A la vegada, vam recollir totes les homòlogues en cisteïna i les proteïnes de maquinària. Al començar l’anàlisi disposàvem d’un total de 25 selenoproteïnes, 14 homòlogues en cisteïna i 7 proteïnes de la maquinària. En acabar l’anàlisi, havíem obtingut per a la nostra espècie 18 selenoproteïnes, 14 homòlogues en cisteïna, i 6 proteïnes de la maquinària de síntesi de selenoproteïnes.
Les selenoproteïnes identificades són: Sel15, Gpx1, Gpx2, Gpx3, Gpx4, Dio1, Dio2, Dio3, SelenoH, SelenoI, SelenoM, SelenoN, SelenoP, SelenoT, SEPHS2, una isoforma de Txnrd, Txnrd3, i Mrsb1. En la majoria d’elles s’han pogut trobar elements SECIS i s’ha pogut predir la proteïna mitjançant Seblastian. Tot i així, en el cas de Gpx4, Dio2, Dio3, SelenoH, SelenoI, SelenoM, SelenoN, i Txnrd3 s’han obtingut prediccions de SECIS però no s’ha pogut predir la selenoproteïna. En tot cas, com que s’ha trobat un residu de selenocisteïna ben alineat amb el del query i també s’han predit SECIS, podem concloure que es tracta de selenoproteïnes.
En canvi, algunes de les selenoproteïnes que s’han perdut en l’espècie estudiada són: Gpx6, una isoforma de SelenoK, SelenoO, SelenoJ, SelenoS, SelenoW i Txnrd2. En totes aquestes podíem veure com en l’alineament del T-Coffee la selenocisteïna del query quedava alineada amb un altre aminoàcid (que no era cisteïna). En alguns casos com SelenoO, SelenoW, i Txnrd2 trobàvem elements SECIS que probablement han romangut al genoma encara que la selenocisteïna s’hagi perdut i ja no sigui una selenoproteïna.
També hem pogut caracteritzar proteïnes que en les altres espèceis eren homòlogues en cisteïna i s’han conservat: GPx5, GPx7, GPx8, MsrA, MSRB2, dues isoformes de MRSB, dues isoformes de SelenoO, SelenoU1, SelenoU2, SelenoU3, una isoforma de Txnrd i Txnrd1. En tots els casos les seqüències resultats tenien una estructura molt similar a les de les espècies de les quals s’havien obtingut (l’alineament era molt bo), i com era d’esperar, no presentaven prediccions d’elements SECIS.
Finalment, hem vist que les proteïnes de maquinària que teníem inicialment s’han conservat en la nostra espècie. Aquestes eren: PSTK, SBP2, SecS, SEPHS, SECp43, eEFsec, i frne. En canvi, frne (obtinguda del genoma de Felis catus) no l’hem trobat en la nostra espècie (no vam trobar hits significatius en el BLAST), ja que probablement es tracta d’una espècie bastant llunyana a la nostra (i per tant segurament aquesta proteïna s’ha perdut en Rousettus aegyptiacus).
Quant a les limitacions que se’ns han presentat durant l’elaboració del projecte, en alguns casos hem trobat una mala anotació de certes proteïnes en el genoma de referència, o algunes d’elles sense subfamília especificada. Per aquest motiu, s’ha hagut de recórrer a la cerca d’aquestes proteïnes en altres espècies, fet que ha comportat problemes a l’hora d’analitzar-les. En segon lloc, creiem que la falta d’experiència en anotació de proteïnes i la falta de coneixement profund sobre característiques, funcions, etc. de les selenoproteïnes ha pogut alentir la realització del treball. A més, s’ha de tenir en compte la subjectivitat en diversos passos del treball. A l’hora d’escollir les scaffolds i els hits, per exemple, es poden haver produit errors. Tot i així, aquests errors s’han intentat evitar creant un programa semi-automàtic (en el qual podíem veure i valorar els pasos més decisius del programa, com per exemple l’anàlisi de l’output del tblastn), reduint així al mínim aquests errors, i millorant la precisió dels resultats obtinguts.
Quant a l’anàlisi de les selenoproteïnes, creiem que hi ha una limitació en el sentit que només s’han tingut en compte proteïnes ja presents en altres espècies per homologia, però en cap moment s’han considerat noves proteïnes que puguin haver sorgit a l’espècie analitzada, fent que hi pugui haver petites variacions en el nombre final de selenoproteïnes.
D’altra banda, programes com el T-Coffee estan basats en prediccions, i per tant cal recordar que sempre hi ha un marge d’error. En alguns casos s’observen alineaments que probablement no serien els més òptims o els esperats, on per exemple trobem desplaçaments en els aminoàcids. Aquí podem veure’n un exemple:
Per últim, aquest treball ens ha ajudat a entendre la importància de la bioinformàtica i les eines biocomputacionals en el camp de la biologia, i concretament en la genòmica.
Aquesta pàgina ha estat creada per 4 estudiants de 4t de Biologia Humana de la Universitat Pompeu Fabra l’any 2016. Si tens cap dubte sobre el nostre projecte, no dubtis en contactar-nos!
Mails de contacte:
Xavi Bertran - xavier.bertran02@estudiant.upf.edu
Jordi Chanovas - jordi.chanovas01@estudiant.upf.edu
Glòria Martínez - gloria.martinez02@estudiant.upf.edu
Carla Rossell - carla.rossell02@estudiant.upf.edu