Materials i mètodes

Obtenció de les Queries Obtenció del genoma Automatització Predicció de SECIS Anotació a SelenoDB Ampliació de la Viquipèdia

Materials i mètodes

L’objectiu del nostre projecte va ser descobrir i localitzar les selenoproteïnes del genoma d’Ictalurus punctatus. Per tal d’identificar les regions que codifiquen per les selenoproteïnes es va utilitzar com a referència Danio rerio (peix zebra) ja que filogenèticament es troben molt propers i per tant, esperàvem un alt grau d’homologia. A més, des del 2013 el genoma de Danio rerio està ben caracteritzat, el que el convertia un bon organisme per a l’estudi de selenoproteïnes. [25]

1. Obtenció de les Queries

Per obtenir les queries es va utilitzar SelenoDB, una base de dades específica per a selenoproteïnes. Gràcies a SelenoDB vam poder extreure les queries de Danio rerio que es van utilitzar per establir homologia amb Ictalurus punctatus.

En el cas de no haver trobat algunes de les selenoproteïnes en el genoma de Zebrafish hem recorregut al genoma humà ja que actualment és el millor estudiat.

A mes a més, ens hem trobat que algunes de les prïotenes de Zebrafish no estan correctament anotades a la base de dades SelenoDB. Sabem que l’aminoàcid metionina és el qui indica al ribosoma l’inici de la traducció d’una proteïna des de l’ARNm. Com a conseqüència, la metionina és el primer aminoàcid incorporat. Per tant, en principi, totes les seqüències proteiques haurien de començar per metionina. Ara bé, a SelenoDB hem trobat algunes incongrüències: en el cas que la proteïna obtinguda de la base de dades SelenoDB no comenci per metionina, anirem a buscar la mateixa proteïna a la base de dades UniProt .

Abans però, podem analitzar la seqüència del gen (a Selenodb “SEQUENCE”), ja que ens hem trobat casos on la seqüència proteica no començava per Metionina però el primer codó del gen era ATG (codó que codifica per la Metionina). Si no la trobem a Uniprot i el primer codó del gen no és ATG, la descartarem.

Per tal de tenir-ho tot organizat hem creat per cadascuna de les queries una carpeta amb el seu nom corresponent. D’aquesta manera anirem guardant tots els fitxers que anem generant dins de de la carpeta que li correspon.

2. Obtenció del genoma

El genoma d’Ictalurus punctatus ens ha estat proporcionat pels professors de l'assignatura de Bioinformàtica. L'hem obtingut del següent directori:

/cursos/20428/BI/genomes/2016/Ictalurus_punctatus/genome.fa

3. Procés d'automatització

Hem decidit crear un programa basant-nos en programes d’anys anteriors per tal d’agilitzar el procés d’obtenció dels resultats. A continuació us adjuntem el nostre programa.

Hem de mencionar que tot i haver fet aquest programa, també hem fet una gran part de les proteïnes manualment, per dos motius: per comprovar i verificar els resultats obtinguts amb el programa, i perquè per fer les famílies de proteïnes és necessari prèviament triar quin és el millor scaffold de cadascuna de les proteïnes (pas manual).

Per tal de poder executar el programa, és necessari que estigui guardat dins d’una carpeta principal on també hi trobem les altres carpetes de les queries.

També haurem de demanar permís de lectura i d’escriptura del programa a través de la comanda:

$ chmod u+x test.pl

Un cop donats els permisos, el programa començarà a córrer de forma automàtica, i quan finalitzi ens sortirà un missatge per pantalla indicant-nos-ho. A partir de llavors ja podrem començar a analitzar tots els resultats.

El programa l’hem dividit en diferents passos, per tal que sigui més entenedor:

Canviar U per X
Aquest pas és essencial per tal que l’Exonerate realitzi correctament la seva funció, així que canviem les U, que corresponen a les selenocisteïnes de la query, per X.
Realització del Blast
El programa BLAST (Basic Local Alignment Search Tool) ens serveix per veure les similituds entre dues seqüències. El BLAST utilitza un algorisme heurístic que troba ràpidament les seqüències amb més homologia respecte la seqüència problema (query).

En el nostre cas hem utilitzat el tBLASTn ja que ens interessa comparar una seqüència proteica (del Zebrafish) amb una base de dades nucleotídica (genoma de I. punctatus).
tblastn -query $seq/${seq}_x.fa -db /cursos/20428/BI/genomes/2016/Ictalurus_punctatus/genome.fa -outfmt 7 -out $seq/BLAST/$seq.blast -evalue 0.0001

- query: seqüència problema (query).

- db: path on es troba el genoma contra el qual volem fer el blast.

- outfmt 7: indica l’estructura amb la qual volem guardar el nostre blast. L’hem volgut tabular.

- out: indica l’arxiu de sortida on s'hi guardaran els resultats del blast.

- evalue 0.0001: selecciona només aquells scaffolds que tenen un e-value menor de 0.0001.

Realització del Fastafetch
L’índex del genoma ha estat proporcionat per part del professorat (genome.index), per tant, directament hem passat a realitzar el fastafetch.

La comanda Fastafetch ens permet extreure a partir d’un genoma que li donem (genome.fa), cada regió genòmica d’interès (scaffold) on s’hi han trobat alineaments d’elecció.

fastafetch /cursos/20428/BI/genomes/2016/Ictalurus_punctatus/genome.fa /cursos/20428/BI/genomes/2016/Ictalurus_punctatus/genome.index '$_' > '$seq/FETCH/$_.txt'

Realització del Fastasubseq
Amb la comanda Fastasubseq podem extreure les regions específiques de cada scaffold que hagi estat alineat amb el BLAST. Ens tallarà l'scaffold segons les coordenades que li marquem: la posició inicial i la longitud.

El problema amb el qual ens trobem és que l’alineament obtingut amb el BLAST només representa la regió codificant del genoma, per tant, necessitem expandir les seqüències upstream i downstream dels hits seleccionats. Hem avançat 25000 nucleòtids endavant respecte la posició inicial i allargat 25000 nucleòtids respecte la posició final. D’aquesta manera ens assegurem que en la seqüència escollida s’inclouen els gens d’interès, i també evitarem perdre part de la seqüència degut als introns. En el cas que longitud no fos suficient, ampliem la cerca fins a 50000 nucleòtids.

Ho fem amb la següent comanda:
$ fastasubseq query/FETCH/nomregio.txt inici llargària > query/SUBSEQ/nomregio_hit_subseq.txt

Realització de l’exonerate
L’exonerate ens compara la seqüència query (en aminoàcids) amb el fitxer obtingut del fastasubseq (en nucleòtids) i ens permet obtenir les seqüències exòniques responsables de la codificació de les selenoproteïnes.

exonerate -m p2g --showtargetgff -q '$seq/${seq}_x.fa -t $seq/SUBSEQ/$file' --exhaustive > $seq/EXONERATE/GFF/$subseq_file.gff

- m: indica el tipus d’alinenament, és a dir, “protein to genome”.

- showtargetgff: li diu al programa que el fitxer de sortida ha d’estar en format gff.

- q: indica la query d’estudi amb X enlloc de U.

- t: regió resultant del fastasubseq.

- exhaustive: realitza tots els alineaments, inclosos els alineaments subòptims.

Amb aquesta comanda ens quedem únicament amb els exons, és a dir amb el cDNA. L’egrep -w exon ens seleccionarà només aquelles files del fitxer gff en les quals s’hi troba la paraula exon:

egrep -w exon $seq/EXONERATE/GFF/$subseq_file.gff > $seq/EXONERATE/cDNAGFF/${subseq_file}_cDNA.gff

La seqüència de cDNA generada pel programa exonerate ens ha estat donada en format gff, i el que volem nosaltres és tenir-la en format fasta. Així doncs fem servir la següent comanda:

fastaseqfromGFF.pl '$seq/SUBSEQ/$file' '$seq/EXONERATE/cDNAGFF/${subseq_file}_cDNA.gff > '$seq/EXONERATE/fastaseqfromGFF/${subseq_file}_cDNA.fa'

Finalment, ens interessa traduir la seqüència de nucleòtids del cDNA a aminoàcids per tal d’obtenir la seqüència proteica del genoma d’interès, Ictalurus punctatus. Ho fem amb la següent comanda:

fastatranslate -F 1 '$seq/EXONERATE/fastaseqfromGFF/${subseq_file}_cDNA.fa' > '$seq/EXONERATE/fastatranslate/${subseq_file}_aa.fa'

-f: s’utilitza per epecificar el fitxer que conté els exons en un format nucleotídic.

-F 1: indica al programa que només s’ha de llegir el primer ORF (Open Reading Frame)

Canvi * per X
És important tenir en compte que per tal d’executar el T-Coffee i aconseguir un bon alineament és necessari que els símbols * siguis substituïts per X.

Realització del T-Coffee (Tree-based Consistency Objective Function for alignment Evaluation)
Amb aquest programa comparem dues seqüències: la seqüència problema (la proteïna obtinguda de la Selenodb) amb la proteïna predita d’Ictalurus punctatus, i ens permet fer l’alineament global i informar-nos de la seva homologia. L’executem amb la següent comanda:
t_coffee $seq/${seq}_x.fa './$seq/EXONERATE/fastatranslate_X/$fitxer_fastatranslate_mod' > './$seq/TCOFFEE/$fitxer_fastatranslate_mod.tcoffee'

4. Predicció/Recerca dels elements SECIS

La predicció dels elements SECIS és important ja que són els elements responsables de la síntesi de Sec a partir del codó UGA.

Per predir els SECIS de cada proteina de Ictalurus punctatus s’ha utilitzat el programa Seblastian, un programa in silico que detecta els gens de les selenoproteïnes que es troben upstream d’un element SECIS i que prèviament utilitza els resultats de SECIS search 3.

El SECIS search 3 és un altre mètode in silico que permet identificar elements SECIS en organismes procariotes però que genera molts falsos positius. Això és perquè només es basa en la seqüència d’entrada i no té en compte que l’element SECIS ha d’estar a la regió 3’UTR. Per tant, és molt sensible però no té prou especificitat, fent que no acabi de ser un bon programa.

5. Anotació de les selenoproteïnes trobades a SelenoDB

Les selenoproteïnes trobades en Ictalurus punctatus van ser afegides a SelenoDB. Per fer això, primer ens vam haver d’enregistrar omplint la informació demanada en el següent enllaç. Seguidament, anant a aquest enllaç i utilitzant el e-mail introduit anteriorment com a autor, vam poder anar pujant totes les selenoproteïnes trobades en Ictalurus punctatus.

La informació que et demana que introdueixis és la següent:
-Espècie

- Gen

- Cadena positiva o negativa

- Exons (indicant el seu inici i final)

- L’inici i el final de la proteïna

- Localització dels elements SECIS

- Localització exacte del residu Sec

- Scaffold (indicant el seu inici i final)

Un cop totes les dades estan introduïdes s’ha de clicar a Fetch sequence. Si hi ha qualsevol error, apareix una notificació en vermell, si no és així es clica a Submit i aquesta selenoproteïna ja queda penjada a la base de dades.

6. Ampliació de la Viquipèdia

Una part del treball consistia en ampliar la informació referent al nostre animal a la Viquipèdia. La nostra aportació al peix gat americà -Ictalurus punctatus- es pot veure aquí.

Recerca de selenoproteïnes en l'Ictalurus punctatus A. Cobos, M. Dacosta, J. García, G. Núñez

Materials i mètodes

1. Obtenció de les Queries

2. Obtenció del genoma

3. Procés d'automatització

Canviar U per X

Realització del Blast

Realització del Fastafetch

Realització del Fastasubseq

Realització de l’exonerate

Canvi * per X

Realització del T-Coffee (Tree-based Consistency Objective Function for alignment Evaluation)

4. Predicció/Recerca dels elements SECIS

5. Anotació de les selenoproteïnes trobades a SelenoDB

6. Ampliació de la Viquipèdia

Recerca de selenoproteïnes en l'Ictalurus punctatus
A. Cobos, M. Dacosta, J. García, G. Núñez