Odobenus rosmaurs divergens

MATERIALS I MÈTODES


L’objectiu del nostre projecte és localitzar els gens que codifiquen per selenoproteïnes i per maquinària relacionada en la seva biosíntesi en el genoma d’Odobenus rosmarus divergens. Per tal de localitzar aquestes proteïnes hem extret les seqüències d’Homo sapiens i de Felis catus de la base de dades SelenoDB i hem buscat la seva homologia en el genoma de l’espècie en estudi.

Obtenció del genoma

El genoma d’Odobenus rosmarus divergens ha estat facilitat pels professors de l’assignatura i es troba dins de la següent carpeta:

/cursos/BI/genomes/2015/Odobenus_rosmarus_divergens/genome.fa

Obtenció de la query

Les queries extretes de la base de dades SelenoDB pertanyen a les d’Homo sapiens ja que és el genoma més ben anotat i a Felis catus per la seva proximitat filogenètica amb l'espècie que es volia estudiar. Totes aquestes queries s'han utilitzat per establir homologia amb Odobenus rosmarus divergens.

Totes les seqüències s’han extret de forma manual i sempre s’ha escollit l’anotació més llarga per tal de no perdre informació sobre la proteïna.

Per cadascuna de les queries hem creat una carpeta amb el seu nom. En aquesta hi guardarem posteriorment tots els resultats relacionats amb la proteïna.

Procés d'automatització

Per tal d’agilitzar el procés d’obtenció dels resultats s’han creat dos programes. El primer d’ells és un programa bash anomenat Exports.sh (previsualitza) i serveix per exportar tots els programes necessaris i executar el següent programa en perl Ohnodobenus.pl (previsualitza). Aquest programa es divideix en diferents passos que descriurem a continuació. Els programes s’han de guardar dins del directori seqs on hi trobem les carpetes de les queries per tal de poder-los executar correctament.

Per començar l’execució dels nostres programes demanen primer permís a través de la comanda:

$ chmod u+x Exports.sh

A partir d’aquí començarà a córrer el programa Ohnodobenus.pl de forma automàtica. Quan finalitzi sortirà un missatge i ja podrem començar a analitzar els nostres resultats.

Canvi U per X

En aquest pas canviem les U (selenocisteïnes) de la query entrada per X per tal que l’Exonerate faci correctament la seva funció. La seqüència obtinguda amb X es desa dins la carpeta de la query amb el nom ‘query_U.fa’.

tBLASTn

Per tal de veure la similitud entre dues seqüències utilitzem el programa BLAST (Basic Local Alignment Search Tool). Dins d’aquest programa hi ha diferents tipus, en el nostre cas hem utilitzat tBLASTn ja que ens interessa comparar una sequència d’aminoàcids (query) amb una seqüència de nucelòtids.

$ blastall -p tblastn -i seqs/query/query_U.fa -d /cursos/BI/genomes/2015/Odobenus_rosmarus_divergens/ genome.fa -o seqs/query/BLAST/query.blast -m8 -e0.0001

- p: informa del tipus de BLAST que s’utilitza, en aquest cas el tblastn.

- i: seqüència problema (query).

- d: fa referència a l’arxiu on es troba el genoma contra el qual volem fer el blast.

- o: indica quin és l’arxiu de sortida on s'hi guardaran els resultats del blast.

- m8: indica l’estructura amb la qual volem guardar el nostre blast, es tracta duna taula.

- e0.0001: selecciona només aquells scaffolds que tenen un e-value menor de 0.0001.

Extracció Scaffold

Per tal d’extreure les regions genòmiques d’interès, primer necessitem l’índex del genoma. Com ja se’ns ha proporcionat prèviament, podem passar a realitzar el fastafetch. D’aquesta manera podrem extreure els scaffolds on s’hi han trobat alineaments d’elecció.

$ fastafetch /cursos/BI/genomes/2015/Odobenus_rosmarus_divergens/genome.fa /cursos/BI/genomes/2015/Odobenus_rosmarus_divergens/genome.index nom regió > query/FETCH/nomregio.txt

Extracció dels hits

Un cop hem extret les diferents regions genòmiques d’elecció, cal extreuren les regions específiques de cada hit. Per això realitzarem el fastasubseq, tenint en compte les coordenades de cada hit d'elecció. Així és més probable que agafem tota la proteïna sencera.

$ fastasubseq query/FETCH/nomregio.txt inici llargària > query/SUBSEQ/nomregio_hit_subseq.txt

En el nostre cas, en l’extracció de cada hit, des de la posició incial allarguem 25.000 nucleòtids enrere, i des de la posicio final, allarguem 25.000 nucleòtids per davant. Amb la nova posició inicial i final, i la llargària del hit original, es calcula la llargària total.

Exonerate

Aquest programa ens permet predir el gen que codifica per la nostra proteïna (exons i introns) ja que mira més enllà d'on s'ha produït l'alineament i pot trobar altres exons del nostre gen que no es contemplaven anteriorment.

$ exonerate -m p2g --showtargetgff -q query/query_U.fa -t query/SUBSEQ/nomregio_hit_subseq.txt --exhaustive yes > query/EXONERATE/GFF/nomregio_hit.gff


- m: indica el tipus d’alinenament, és a dir, “protein to genome”.

- showtargetgff: li diu al programa que el fitxer de sortida ha d’estar en format gff.

- q: indica la query destudi amb X enlloc de U.

- t: regió resultant del fastasubseq.

- exhaustive yes: realitza tots els alineaments, inclosos els alineaments subòptims.

- hit: representa un número que ens permet diferenciar els fitxers resultants de l’exonerate.

Un cop l’exonerate ens dóna la predicció del gen, extraiem només els exons, per tant, el cDNA. Utilitzem la següent comanda, on egrep -w exon seleccionarà només les files del fitxer gff en les que s’hi trobi la paraula exon:

$ egrep -w exon query/EXONERATE/GFF/nomregio_hit.gff > query/EXONERATE/cDNAGFF/nomregio_hit_cDNA.gff

Per tal d’obtenir el fitxer gff en format fasta, fem servir el següent programa Perl:

$ fastaseqfromGFF.pl query/SUBSEQ/nomregio_hit_subseq.txt
query/EXONERATE/cDNAGFF/nomregio_hit_cDNA.gff>query/EXONERATE/cDNAFA/nomregio_hit_cDNA.fa

Un cop obtinguda la seqüència de nucleòtids del cDNA en format fasta, traduim aquesta seqüència a aminoàcids. Això ens proporciona la proteïna predita en la nostra espècie. En aquesta comanda, -F 1 indica al programa que només s’ha de llegir el primer ORF (Open Reading Frame), ja que probablement serà la predicció correcta.

$ fastatranslate -F 1 query/EXONERATE/cDNAFA/nomregio_hit_cDNA.fa > query/EXONERATE/TRANSLATED/query_numero.fa

T-Coffee

El programa T-COFFEE (Tree-based Consistency Objective Function for alignment Evaluation) permet fer l’alineament global de les proteïnes predites del fastatranslate amb la proteïna query. Per tant, ens permet comparar les proteïnes predites amb la query donant-nos informació sobre la seva homologia.

$ t_coffee seqs/query/query_U.fa 'query/TCOFFEE/TRANSLATED/query_número.fa'
> query/TCOFFEE/RESULTS/query_número_tcoffee.txt


Encara que en el nostre cas els resultats s'hagin obtingut per un programa d'automatització, tots els passos esmentats es poden realitzar de forma individual. Sempre i quan es faci l'export de tots els programes necessàris (T-coffee, exonerate, blast).

Predicció de SECIS

Per determinar si la proteïna obtinguda al final del procés d’automatització correspon realment a una selenoproteïna hem de predir els possibles elements SECIS, elements essencials per la síntesi de les selenoproteines que es troben a l’extrem 3’ downstream del gen codificant. Per tal de realitzar aquest últim pas utilitzem la web "Selenoprotein prediction server", on tenim dues possibilitats Seblastian o SECISearch3, tots dos han estat utilitzats en la nostra cerca. És necessària la introducció d’un document de sortida, que correspon a fastasubseq del qual se’n extreu un output. S’ha vist al llarg de l’obtenció dels elements SECIS que hi ha possibles sequències de selenoproteïna que no són el suficientment llargues i que en conseqüència el fet de que no surti un element SECIS no és del tot cert. Això podria venir degut a que l’element SECIS està localitzat fora del contig analitzat i que en conseqüència no pot ser predit però si que podria existir.