MATERIALS I MÈTODES
L’objectiu del nostre projecte és localitzar els gens que codifiquen per selenoproteïnes i per maquinària relacionada en la seva biosíntesi en el genoma d’Odobenus rosmarus divergens. Per tal de localitzar aquestes proteïnes hem extret les seqüències d’Homo sapiens i de Felis catus de la base de dades SelenoDB i hem buscat la seva homologia en el genoma de l’espècie en estudi. El genoma d’Odobenus rosmarus divergens ha estat facilitat pels professors de l’assignatura i es troba dins de la següent carpeta:
Les queries extretes de la base de dades SelenoDB pertanyen a les d’Homo sapiens ja que és el genoma més ben anotat i a Felis catus per la seva proximitat filogenètica amb l'espècie que es volia estudiar. Totes aquestes queries s'han utilitzat per establir homologia amb Odobenus rosmarus divergens. Per tal d’agilitzar el procés d’obtenció dels resultats s’han creat dos programes. El primer d’ells és un programa bash anomenat Exports.sh (previsualitza) i serveix per exportar tots els programes necessaris i executar el següent programa en perl Ohnodobenus.pl (previsualitza). Aquest programa es divideix en diferents passos que descriurem a continuació. Els programes s’han de guardar dins del directori seqs on hi trobem les carpetes de les queries per tal de poder-los executar correctament. A partir d’aquí començarà a córrer el programa Ohnodobenus.pl de forma automàtica. Quan finalitzi sortirà un missatge i ja podrem començar a analitzar els nostres resultats.
En aquest pas canviem les U (selenocisteïnes) de la query entrada per X per tal que l’Exonerate faci correctament la seva funció. La seqüència obtinguda amb X es desa dins la carpeta de la query amb el nom ‘query_U.fa’.
Per tal de veure la similitud entre dues seqüències utilitzem el programa BLAST (Basic Local Alignment Search Tool). Dins d’aquest programa hi ha diferents tipus, en el nostre cas hem utilitzat tBLASTn ja que ens interessa comparar una sequència d’aminoàcids (query) amb una seqüència de nucelòtids.
- p: informa del tipus de BLAST que s’utilitza, en aquest cas el tblastn.
Per tal d’extreure les regions genòmiques d’interès, primer necessitem l’índex del genoma. Com ja se’ns ha proporcionat prèviament, podem passar a realitzar el fastafetch. D’aquesta manera podrem extreure els scaffolds on s’hi han trobat alineaments d’elecció.
Un cop hem extret les diferents regions genòmiques d’elecció, cal extreuren les regions específiques de cada hit. Per això realitzarem el fastasubseq, tenint en compte les coordenades de cada hit d'elecció. Així és més probable que agafem tota la proteïna sencera. En el nostre cas, en l’extracció de cada hit, des de la posició incial allarguem 25.000 nucleòtids enrere, i des de la posicio final, allarguem 25.000 nucleòtids per davant. Amb la nova posició inicial i final, i la llargària del hit original, es calcula la llargària total.
Aquest programa ens permet predir el gen que codifica per la nostra proteïna (exons i introns) ja que mira més enllà d'on s'ha produït l'alineament i pot trobar altres exons del nostre gen que no es contemplaven anteriorment.
- m: indica el tipus d’alinenament, és a dir, “protein to genome”. Un cop l’exonerate ens dóna la predicció del gen, extraiem només els exons, per tant, el cDNA. Utilitzem la següent comanda, on egrep -w exon seleccionarà només les files del fitxer gff en les que s’hi trobi la paraula exon:
Per tal d’obtenir el fitxer gff en format fasta, fem servir el següent programa Perl:
query/EXONERATE/cDNAGFF/nomregio_hit_cDNA.gff>query/EXONERATE/cDNAFA/nomregio_hit_cDNA.fa Un cop obtinguda la seqüència de nucleòtids del cDNA en format fasta, traduim aquesta seqüència a aminoàcids. Això ens proporciona la proteïna predita en la nostra espècie. En aquesta comanda, -F 1 indica al programa que només s’ha de llegir el primer ORF (Open Reading Frame), ja que probablement serà la predicció correcta.
El programa T-COFFEE (Tree-based Consistency Objective Function for alignment Evaluation) permet fer l’alineament global de les proteïnes predites del fastatranslate amb la proteïna query. Per tant, ens permet comparar les proteïnes predites amb la query donant-nos informació sobre la seva homologia.
> query/TCOFFEE/RESULTS/query_número_tcoffee.txt Encara que en el nostre cas els resultats s'hagin obtingut per un programa d'automatització, tots els passos esmentats es poden realitzar de forma individual. Sempre i quan es faci l'export de tots els programes necessàris (T-coffee, exonerate, blast). Per determinar si la proteïna obtinguda al final del procés d’automatització correspon realment a una selenoproteïna hem de predir els possibles elements SECIS, elements essencials per la síntesi de les selenoproteines que es troben a l’extrem 3’ downstream del gen codificant. Per tal de realitzar aquest últim pas utilitzem la web "Selenoprotein prediction server", on tenim dues possibilitats Seblastian o SECISearch3, tots dos han estat utilitzats en la nostra cerca. És necessària la introducció d’un document de sortida, que correspon a fastasubseq del qual se’n extreu un output. S’ha vist al llarg de l’obtenció dels elements SECIS que hi ha possibles sequències de selenoproteïna que no són el suficientment llargues i que en conseqüència el fet de que no surti un element SECIS no és del tot cert. Això podria venir degut a que l’element SECIS està localitzat fora del contig analitzat i que en conseqüència no pot ser predit però si que podria existir. |