*SELENOPROTEINES EN CRICETULUS GRISEUS*

MATERIALS I MÈTODES

Obtenció del genoma problema

El genoma de Cricetulus griseus ha estat proporcionat pels professors de l'assignatura de Bioinformàtica de la UPF.

Tria d'organismes model

Per buscar les selenoproteïnes de C.griseus s'han fet servir una sèrie d'eines per tal de cercar les selenoproteïnes conegudes fins al moment en altres organismes. Principalment, s'han fet servir com a organismes model M.musculus i H.sapiens. M. musculus s'ha escollit per la seva proximitat filogenètica i H. sapiens per ser el mamífer millor descrit pel que fa a Selenoproteïnes.

Base de dades

La informació sobre les selenoproteïnes de l'organisme model (query) s'ha obtingut de SelenoDB perquè les proteïnes que hi apareixen estan ben descrites, tot i que pot ser que no hi siguin totes. També s'ha utilitzat la base de dades NCBI per a fer el blastp, que en algunes ocasions ens ha ajudat a comprovar resultats, al indicar tots els organismes on una determinada proteïna es troba present.

BLAST

A partir de la seqüència aminoacídica de les selenoproteïnes (o homòlegs en Cisteïna) de l'organisme model, s'ha fet un blast contra el genoma de C.griseus (tblastn). S'han descartat els hits (high-scoring segment pairs -HSPs-) amb un e-value major a 10-5. En cas de tenir múltiples hits amb bons e-values, s'ha triat el que tingués el millor e-value, i s'ha comprovat si els altres hits podien pertànyer a alguna de les altres proteïnes analitzades. També s'ha realitzat un blastp per a les proteïnes trobades a partir de la seqüència aminoacídica humana i que no apareixien a SelenoDB com a selenoproteïnes de Mus musculus. El blastp és una eina que compara la proteïna trobada contra tots els genomes a NCBI.

Extracció del DNA genòmic i conversió a seqüència aminoacídica

Mitjançant les comandes associades a exonerate (fastafetch i fastasubseq), s'ha extret el DNA genòmic de la regió que potencialment conté la proteïna buscada, l'inici del subseq s'ha establert a 10000 nucleòtids abans de l'inici del hit i el final s'ha establert a 10000 nucleòtids després del final del hit. Mitjançant les comandes exonerate i fastatranslate s'ha convertit el DNA genòmic en la seqüència aminoacídica de l'organisme problema. En cas que els resultats obtinguts amb l'exonerate no fossin clars, s'ha utilitzat el genewise com a eina d'extracció del DNA genòmic.

Alineament

L'alineament de la seqüència aminoacídica de l'organisme model (query) i la de l'organisme problema s'ha fet mitjançant el programa t_coffee.

Cerca de SECIS

La cerca dels elements SECIS s'ha dut a terme a través de la web SECISearch. Cal tenir en compte la direcció del gen (forward o reverse) a l'hora d'utilitzar-la. Preferentment, s'han cercat els SECIS amb l'opció strict, però si no donava resultats, s'ha canviat per l'opció default o, si tot i així no s'obtenien resultats, per l'opció loose. En cas d'obtenir més d'un possible element SECIS, s'ha triat aquell més proper al final de l'últim exó.

Cerca de tRNAs de Selenocisteïna

Per tal de trobar els tRNAs de Selenocisteïna s'ha emprat el programa tRNAscan-SE (disponible gratuïtament aquí).

Selenoprofiles

Un cop l'adquisició de resultats i l'anàlisi d'aquests va estar enllestida, es va fer servir el programa selenoprofiles per a que intentés trobar totes les selenoproteïnes eucariotes conegudes. Això va servir per una banda per a comprovar resultats i, per una altra banda, per buscar altres selenoproteïnes conegudes però que no es troben ni en Mus musculus ni en Homo sapiens.

Utilització del cluster de docència i creació d'un fitxer.bashrc

A l'hora de fer aquest treball els professors ens van proporcionar accés a un cluster de docència, que té instal·lats els programes necessaris per a l'elaboració del treball. A més a més, cada alumne disposa d'un espai on poder guardar les seves dades.

Per a poder treballar amb els diferents programes és necessari copiar una sèrie de PATHs cada vegada que s'obre el cluster. Per tal d'evitar haver de copiar tots els PATHs cada vegada, vam crear un fitxer .bashrc que conté tots els PATHs. Aquest tipus de fitxer s'executa cada cop que s'obre el terminal, de manera que ja no cal tornar a copiar els PATHs perquè aquests es fan automàticament.

A continuació es mostra un exemple de la seqüència de comandes utilitzades per a trobar l'homòleg d'una Selenoproteïna (o homòleg en Cisteïna) d'un organisme model en C. griseus.


1) blastall -p tblastn -i Sel15.mm.aa.fa -d genome.fa -o sortida_Sel15
2) fastaindex /cursos/BI/genomes/project_2013/Cricetulus_griseus/genome.fa genome.index
3) fastafetch /cursos/BI/genomes/project_2013/Cricetulus_griseus/genome.fa genome.index "gi|344162632|gb|JH002433.1|" > gb_JH002433.1.fa
4) fastasubseq gb_JH002433.1.fa 4000 34000 > genomic_Sel15.fa
5) exonerate -m p2g --showtargetgff -q Sel15.mm.aa.fa -t genomic_Sel15.fa | egrep -w exon > sel15mm2cgrisgenome.exonerate.gff
6) fastaseqfromGFF.pl genomic_Sel15.fa sel15mm2cgrisgenome.exonerate.gff > sel15mm2cgrisgenome.fa
7) fastatranslate -F 1 sel15mm2cgrisgenome.fa > Sel15.cg.aa.fa
8) t_coffee Sel15.mm.aa.fa Sel15.cg.aa.fa > Sel15_alignment
9) blastcl3 -p blastp -i Sel15.cg.aa.fa -d nr > blast_Sel15


Torna a dalt