Com ja hem comentat, aquest treball s’ha realitzat amb l’objectiu d’anotar les selenoproteïnes de l’espècie Bos grunniens mutus, la qual ha estat recentment seqüenciada.
Tot seguit, es descriurà el procés que s’ha seguit per a realitzar la determinació del selenoproteoma de Bos grunniens mutus, especificant cadascun dels passos realitzats en l’anàlisi.
El sistema operatiu utilitzat ha estat Ubuntu, degut a la seva fàcil manipulació.
1. Selecció de l'espècie i obtenció del seu genoma a |
|
|
a
L’espècie analitzada ha estat Bos grunniens mutus, la qual va ser assignada a l’atzar per part del professorat. Aquesta espècie compleix dos requisits essencials: per una banda, el seu genoma ha estat seqüenciat recentment i presenta un alt grau de fidelitat mentre que per l’altra, les selenoproteïnes que conté no han estat encara anotades. El genoma d’aquesta espècie va ser facilitat a través de l’assignatura de bioinformàtica i s’hi va poder accedir a través del següent directori:
|
/cursos/BI/genomes/vertebrates/2014/Bos_grunniens_mutus/genome.fa
|
|
El fitxer genome.fa conté el genoma de la espècie a estudiar però degut a que el seu format no era òptim per a treballar–hi, es va haver d’indexar per tal de dividir–lo en diferents fragments anomenats scaffolds, els quals se’ls va assignar un nom format per lletres i números. La comanda que es va utilitzar va ser la següent:
|
$ fastaindex /cursos/BI/genomes/vertebrates/2014/Bos_grunniens_mutus/genome.fa bd.index
|
|
2. Selecció de les querys a |
|
Les seqüències querys que s’han utilitzat corresponen a seqüències de selenoproteïnes ja descrites en altres espècies, concretament en Bos taurus i en Homo sapiens, que s’han obtingut de la base de dades SelenoDB. Aquestes seqüències s’han alineat amb el genoma de la nostra espècie per tal d’identificar–ne les selenoproteïnes.
En tot el treball s’ha considerat Bos taurus com a espècie de referència, de manera que en cas de trobar selenoproteïnes anotades en ambdós genomes, tant de Bos taurus com d’Homo sapiens, s’han utilitzat les selenoproteïnes identificades en aquesta espècie. S’ha escollit aquest criteri degut a la proximitat evolutiva que existeix entre totes dues espècies.
Tot i així, com ja s’ha comentat, les selenoproteïnes anotades en el genoma d’Homo sapiens també s’han utilitzat, ja que malgrat Bos grunniens mutus sigui molt llunyana evolutivament a l’espècie humana, hi havia la possibilitat de trobar–ne alguna de conservada. Un cop seleccionada la seqüència de la selenoproteïna query, aquesta s’ha editat en el programa emacs, emmagatzemant–la amb el nom de la proteïna.fa.
|
|
BLAST (Basic Local Alignment Search Tool) és un programa informàtic que permet alinear seqüències de DNA, RNA i aminoàcids mitjançant un algoritme heurístic. Aquest no garanteix que el resultat obtingut sigui del tot correcte, però a l’hora permet estalviar molt temps. S’ha utilitzat la varietat del programa tBLASTn, el qual ha permès comparar les diferents seqüències proteiques (querys) amb el genoma de la nostra espècie. Mitjançant les següents comandes s’ha exportat el programa a través del terminal:
|
$ export PATH=/cursos/BI/bin/ncbiblast/bin:$PATH
$ cp /cursos/BI/bin/ncbiblast/.ncbirc ~/
|
Per tal d’executar la cerca amb tBLASTn d’una query contra el genoma s’ha utilitzat la comanda següent:
$ blastall –p tblastn –i query.fa –d /cursos/BI/genomes/vertebrates/2014/Bos_grunniens_mutus/genome.fa –o query.blast
On –p especifica el tipus de blast que volem executar, –i el fitxer on tenim la nostra query, –d el directori on es troba el genoma contra el que volem mapejar la query i finalment –o correspon al fitxer de sortida on s’emmagatzemaran els resultats. A continuació, s’ha analitzat el fitxerdesortida.blast per tal de seleccionar un possible hit candidat a ser la selenoproteïna de Bos grunniens mutus. S’han descartat tots aquell hits que presentaven un E–value major a e–10. A més, també s’ha tingut en compte que al realitzar la cerca de proteïnes dins una mateixa família, degut al seu elevat grau d’homologia, en molts casos els hits poden pertànyer a qualsevol d’aquestes. Per regla general, s’han escollit hits més bons, és a dir, aquells que presentaven un E–value més petit. En cas que els resultats obtinguts no fossin satisfactoris i que no s’aconseguís un bon alineament, s’ha passat a analitzar la resta de hits bons.
|
4. Selecció de scaffolds a |
|
Un cop s’han seleccionat els hits, aquests s’han extret de l’scaffold on estaven continguts per tal de no haver de treballar amb tot el genoma i agilitzar el procés de cerca de selenoproteïnes. Aquest fet, en part, ha estat possible gràcies a la prèvia indexació que s’ha realitzat. La comanda utilitzada en el terminal ha estat la següent:
|
$ fastafetch /cursos/BI/genomes/vertebrates/2014/Bos_grunniens_mutus/genome.fa bd.index scaffold > scoffold.fa
|
L’identificador de l’scaffold s’ha obtingut a partir de les dades proporcionades pel Blast. Després d’executar aquesta comanda s’ha obtingut el fitxer de sortida scaffold.fa. Aquest fitxer conté la regió genòmica on és possible que es trobi el gen de la selenoproteïna seleccionada. Per tal d’acotar encara més la regió on es troba el possible gen candidat, s’han determinat les coordenades del hit, és a dir, el nucleòtid d’inici i el del final d’aquest. Amb aquesta informació, seguidament s’ha utilitzat el programa fastasubseq amb la següent comanda al terminal:
|
$ fastasubseq scaffold.fa start lenght > genomic.fa
S’han utilitzat uns valors de length semblants en cada selenoproteïna analitzada, establerts de manera arbitrària per tots els membres del grup.
|
|
S’ha utilitzat el programa exonerate per realitzar l’alineament de la nostra query amb la regió genòmica seleccionada en el pas anterior del procés. Aquest programa facilita informació tal com elements funcionals continguts en la seqüència genòmica, així com les regions d’splicing, exons i introns. Abans d’ executar–lo, s’ha hagut d’exportar la següent comanda al terminal:
|
$ export PATH=/cursos/BI/soft/exonerate/i386/bin:$PATH
|
És important tenir en compte que aquest programa no reconeix l’aminoàcid U (selenocisteïna) i per tant, prèviament a la seva execució s’ha hagut d’editar el fitxer que contenia la seqüència query substituint així les U per X. Amb aquest pas s’ha evitat que el terminal indiqués un error. La comanda per executar el programa ha estat el següent:
|
$ exonerate –m p2g ––showtargetgff –q query.fa –t genomic.fa | egrep –w exon > exonerate.gff
On –m p2g indica el model d’alineament, és a dir, l’alineament de la seqüència d’aminoàcids de la query contra la seqüència de nucleòtids de la regió genòmica seleccionada anteriorment. El motiu ––showtargetgff emmagatzema el resultat en format GFF al fitxer de sortida, –q indica on es troba el fitxer amb la query i –t indica la subseqüència obtinguda anteriorment amb el programa fastasubseq. Mitjançant la comanda egrep s’han seleccionat tan sols els exons del fitxer genomic.fa. Finalment, el fitxer de sortida ha estat exonerate.gff, el qual conté els exons en format gff. A continuació, ha estat necessari transformar el fitxer de sortida del programa exonerate en format fasta. Per a realitzar aquest pas s’ha utilitzat el programa fastaseqfromGFF. Tot i així, abans de la seva execució s’ha hagut d’exportar el programa amb la següent comanda:
|
$ export PATH=/cursos/BI/bin:$PATH
Cal remarcar, que aquest pas ha servit més endavant per a poder executar també el programa T–coffee. Seguidament s’ha introduït la següent comanda al terminal:
|
$ fastaseqfromGFF.pl genomic.fa exonerate.gff > dna.fa
El fitxer de sortida dna.fa conté en format fasta els exons predits amb el programa exonerate.
|
6. Traducció del gen predit a |
|
Un cop s’ha obtingut el fitxer fasta amb els exons que codifiquen per la selenoproteïna candidata, s’ha traduït aquest cDNA a proteïna mitjançant el programa fastatranslate. Així, s’ha obtingut la seqüència proteica que possiblement correspongui a una selenoproteïna de Bos grunniens mutus. La comanda utilitzada en el terminal ha estat la següent:
|
$ fastatranslate –f dna.fa –F 1 > predicted.fa
|
On –f especifica el fitxer en format fasta on es troba la seqüència exònica i –F 1 permet indicar per quin nucleòtid ha de començar la traducció. És important tenir en compte que hi ha sis pautes de lectura possibles (tres forward i tres reverse). Un cop s’ha generat el fitxer de sortida predicted.fa, que conté la seqüència d’aminoàcids de la proteïna candidata, s’ha editat el fitxer altra vegada, per tal de tornar a substituir les X per U. D’aquesta manera, en realitzar l’alineament s’ha permès identificar les selenocisteïnes.
|
7. Alineament de proteïnes a |
|
Finalment, s’ha comparat la semblança entre la selenoproteïna predita de l’espècie Bos grunniens mutus i la proteïna utilitzada com a query, o bé de Bos grunniens mutus i d’ Homo Sapiens. El programa utilitzat per a realitzar aquest pas del procés ha estat el T–coffee (Tree based Consistency Objective Function For AlignmEnt Evaluation). La comanda introduïda al terminal ha estat la següent:
|
$ t_coffee query.fa predicted.fa > alineament.fa
|
En el fitxer de sortida s’ha emmagatzemat el resultat de l’alineament entre les dues proteïnes. Com més endavant es veurà en l’apart de discussió, s’han comentat cadascuna de les possibles selenoproteïnes predites, especificant en cada cas si aquestes estan o no conservades.
|
8. Predicció d’elements SECIS a |
|
Per últim, degut a la importància que tenen els elements SECIS en les selenoproteïnes, s’ha determinat la seva presència en les selenoproteïnes predites. S’ha utilitzat el programa SECISearch3 (Seblastian). En el programa s’ha introduït una seqüència d’uns 10.000 nucleòtids, corresponent a la seqüència del final de la selenoproteïna predita. Per a l’obtenció d’aquest fragment s’ha utilitzat el programa fastasubseq mitjançant la següent comanda:
|
$ fastasubseq scaffold.fa nucleotid–final 10000 > secis.fa
|
S’ha tingut en compte en tot moment si el gen estava contingut en la cadena positiva o negativa (forward o reverse) del DNA. Així, el número de nucleòtid introduït (nucleotid–final) en el cas d’un gen forward ha correspost a l’últim aminoàcid, mentre que en un gen reverse ha correspost al primer. En aquells casos en què s’ha obtingut més d’un element SECIS, s’ha considerat com a element SECIS de la selenoproteïna aquell més proper a la seqüència proteica.
|