Conclusions

Amb aquest projecte hem aconseguit identificar diferents proteïnes en els genomes analitzats. Algunes d'aquestes són selenoproteïnes, mentre que altres són homòlegs amb cisteïna. A banda, alguns dels genomes analitzats no contenen homòlegs de les proteïnes estudiades.

Pensem que els nostres resultats quadren amb el descrit sobre evolució per duplicació de gens i acumulació de canvis en les seqüències d'aquests, ja que hem trobat hits amb E-values similars que, en analitzar-los en profunditat, ens han portat a identificar seqüències proteiques altament similars codificades per gens molt pròxims entre si.

Pel que fa a l'anotació dels genomes, creiem convenient córrer els dos programes de què disposem (i.e. Exonerate i Genewise) i comparar-ne els resultats, ja que això ens permet detectar possibles errors i resoldre dubtes.

Voldríem també destacar la utilitat que trobem a automatitzar la majoria de tasques repetitives. Som conscients que aconseguir que els scripts funcionessin com volíem ha exigit hores d'esforç, però creiem que el resultat les compensa, ja que en no haver de fer manualment cadascun dels passos del procés (fet que exigeix hores teclejant ordres repetitives), hem pogut dedicar més temps a l'anàlisi i discussió de resultats i l'extracció de conclusions. A banda, automatitzar la seqüència de programes a usar ens ha permès recuperar instantàniament feina que vam perdre accidentalment així com trobar proteïnes en hits que segurament hauríem descartat en cas de fer el treball manualment per no mostrar selenocisteïna als resultats del tBLASTn.

Tot i l'exposat, veiem imprescindible la comprovació manual d'alguns passos del procés (ja que no tots els hits estadísticament significatius tenen perquè ser-ho a nivell biològic), així com l'anàlisi detallada dels resultats i la discussió conjunta dels mateixos a l'hora d'extreure conclusions. Aquest aspecte ens porta a reconéixer la utilitat de tenir accés lliure, 24h/7dies i des de qualsevol connexió a internet, a les nostres dades emmagatzemades al servidor luke.upf.edu així com a la ingent quantitat d'informació a l'NCBI i a eines bioinformàtiques com tBLASTn, BLASTp o TCoffee.

Per últim creiem important seguir investigant en els àmbits de les selenoproteïnes i de l'anàlisi exhaustiva de seqüències genòmiques, tant per adquirir nou coneixement com per comprovar i millorar el nostre treball.
Una primera proposta seria analitzar les relacions d'homologia entre els nostres resultats. Cal tenir en compte que hem considerat que trobàvem proteïnes homòlogues a la GPx humana, enlloc d'especificar aquestes relacions per a cada una de les GPx. Som conscients que aquesta afirmació és incompleta, i que caldria aprofundir en l'estudi per tal d'aclarir com ha evolucionat aquesta família de proteïnes i poder situar els fenomens d'especiació i duplicació en l'arbre evolutiu de les mateixes.
Proposem dur a terme aquest procés mitjançant mètodes estudiats a l'assignatura com Best Bidireccional Hit, Inparanoid i Species Overlap tot i que aquest darrer exigiria conèxier l'arbre filogenètic i filoma dels organismes estudiats. Això ens permetria saber de quina o quines GPx humanes és homòloga la proteïna predita, i si la duplicació es va produir abans o després de l'especiació entre humans i l'organisme analitzat.