Materials i mètodes

L’objectiu del treball va ser identificar, localitzar i anotar les selenoproteïnes de l’espècie Astyanax mexicanus. Per tal de fer-ho, es van predir les selenoproteïnes buscant l’anotació d’aquestes en el SelenoDB en una espècie coneguda. En el nostre cas es va triar l’espècie Danio rerio com a referència, la qual presenta una distància filogenètica propera al Astyanax mexicanus i, per tant, s’esperava un alt grau d’homologia. També cal tenir en compte que Danio rerio és l'espècie millor caracteritzada, sent així el millor organisme per a estudiar selenoproteïnes a Astyanax mexicanus.

Per altra banda, aquelles selenoproteïnes que no es van trobar al genoma de Danio rerio es van buscar a una altra espècie propera, el Takifugu rubipres, i a una espècie més llunyana però millor estudiada i anotada, l'Homo sapiens.

Queries

Per tal d’obtenir les queries de les selenoproteïnes es va utilitzar la base de dades SelenoDB. A partir d’aquesta base de dades específica de selenoproteïnes es van obtenir les seqüències de les selenoproteïnes de Danio rerio que es van utillitzar com a queries. Aquestes selenoproteïnes, en principi, presenten un cert grau d’homologia amb la nostra espècie a estudiar.

Cadascuna de les queries ha estat desada en un document de text i ha estat analitzada. Un cop realitzat l’anàlisi de cada selenoproteïna es van guardar les queries en una carpeta amb tots els altres arxius que s’anaven generant de cada selenoproteïna al llarg del programa, per tenir-los organitzats.

Programes

El genoma de l’Astyanax mexicanus va ser facilitat pels professors de l’assignatura i s’ha obtingut accedint al següent directori:

/cursos/20428/BI/genomes/2017/Genus_species/genome.fa

Per tal d’agilitzar el procés es va decidir crear un programa. Tot i així, es va realitzar l’anàlisi de varies selenoproteïnes de forma manual per tal de verificar que el programa funcionava de forma correcta. A més, en aquelles proteïnes que contenen varis scaffolds es va realitzar el procés de selecció de la millor opció també de forma manual.

Per poder executar el programa, aquest ha d’estar guardat dins del mateix directori que les diferents queries. La comanda necessària per poder accedir i modificar el programa és la següent:

$ chmod x+u programa.pl

A més, cal tenir present que abans d’executar el programa s’han de carregar els diferents mòduls al shell:

module load modulepath/goolf-1.7.20
module load BLAST+/2.2.30-goolf-1.7.20
module load Exonerate/2.2.0-goolf-1.7.20
module load T-Coffee/11.00.8cbe486-goolf-1.7.20
export PATH=/cursos/20428/BI/bin:$PATH

A continuació explicarem els diferents passos seguits a l’hora de crear el programa:

Substitució U per X

El primer pas després d’haver adquirit les queries és canviar les U per X, símbol que representa l’aminoàcid de selenocisteïna en les proteïnes obtingudes des del SelenoDB. Per tal de realitzar la substitució de totes les U de la seqüència per X s’ha utilitzat la següent comanda:

sed 's/U/X/g' $p.fa.txt > $p.fa

Blast

A continuació el programa realitza el Blast i mostra el resultat per la pantalla. Per una part, l'argument -outfmt ens donarà el Blast simplificat amb la taula dels hits. Per altra part, l’argument -evalue 0.001 permetrà que el programa només mostri aquells hits que són estadísticament significatius, és a dir, aquells amb un e-value inferior a 0.001. La comanda utilitzada és la següent:

tblastn -query

$p.fa -db /cursos/20428/BI/genomes/2017/Astyanax_mexicanus/genome.fa -outfmt 7 e-value 0.001 -out $p.blast

Fastafetch

Un cop realitzat el Blast, el Fastafetch permet extreure els scaffolds d’interès, és a dir, aquelles regions del genoma del Astyanax mexicanus que concorden amb les selenoproteïnes del genoma de referència. La comanda utilitzada és la següent:

fastafetch /cursos/20428/BI/genomes/2017/Astyanax_mexicanus/genome.fa

/cursos/20428/BI/genomes/2017/Astyanax_mexicanus/genome.index '$s' > $s.fetch.fa

Com es pot observar, abans de realitzar aquest pas és necessari obtenir l’índex del nostre genoma, el qual també va ser facilitat pels professors de l’assignatura i s’hi va accedir a través del següent directori:

/cursos/20428/BI/genomes/2017/Genus_species/genom

Expansió de la seqüència

El programa estén 50000 nucleòtids per davant i per darrere del nucleòtid d'inici i de final. A continuació, es calcularà la llargada total de l'scaffold. En aquells casos on la posició inicial sigui inferior a 50000 s’agafa el nombre 0 com a posició inicial. A continuació hi ha la comanda utilitzada:

if ($i >= 50000)

{$i=$i-50000;

$f=$f+50000;}

else

{$i=0;};

$l=$f-$i

Fastasubseq

El programa realitza el Fastasubseq per tal de tallar l'scaffold en les posicions alineades d'interès. La comanda utilitzada és la següent:

fastasubseq $s.fetch.fa $i $l > $p.$s.subseq.fa

Exonerate i Egrep

Per tal de realitzar la predicció el programa executa l'Exonerate i seguidament l'Egrep. D’aquesta forma compara el query amb el Fastasubseq i selecciona només els exons, fusionant-los en un sol arxiu. Les comandes utilitzades són les següents:

exonerate --exhaustive yes -m p2g --showtargetgff -q $p.fa -t $p.$s.subseq.fa > $p.$s.exonerate

egrep -w exon $p.$s.exonerate > $p.$s.exons.exonerate

FastaseqfromGFF

El programa obté la seqüència de cDNA generada anteriorment amb format gff. utilitzant el FastaseqfromGFF:

fastaseqfromGFF.pl $p.$s.subseq.fa $p.$s.exons.exonerate > $p.$s.cDNA.fa

Fastatranslate

A continuació, el programa tradueix el cDNA obtingut a proteïna amb el Fastatranslate. La comanda utilitzada és la següent:

fastatranslate -f $p.$s.cDNA.fa -F 1 > $p.$s.prot.fa

Substitució * per X

De la mateixa manera que al principi s’han canviat les U per X, ara el programa canvia els * per X del fitxer .prot.fa obtingut del Fastatranslate:

sed 's/*/X/g' $p.$s.prot.fa > $p.$s.protX.fa

T-coffee

Per tal de comparar la predicció de la proteïna obtinguda amb la proteïna inicial de Danio rerio extreta del SelenoDB el programa utilitza el T-Coffee i mostra el resultat per la pantalla.

A continuació hi ha la comanda utilitzada per tal d’executar el T-coffee:

t_coffee $p.fa $p.$s.protX.fa > $p.$s.tcoffee

Organització dels fitxers

Finalment, el programa crea una carpeta anomenada $p.$s i hi mou tots els arxius creats durant l'anàlisi.

La comanda utilitzada és la següent:

mkdir $p.$s

mv $s.fetch.fa $p.$s

mv $p.$s.subseq.fa $p.$s

mv $p.$s.exonerate $p.$s

mv $p.$s.exons.exonerate $p.$s

mv $p.$s.cDNA.fa $p.$s

mv $p.$s.prot.fa $p.$s

mv $p.$s.protX.fa $p.$s

mv $p.$s.tcoffe $p.$s

Altres consideracions

En alguns casos on programa no va funcionar correctament i tampoc es podia obtenir l’anàlisi dels hits manualment, es va recórrer a altres mètodes per a poder predir la selenoproteïna en qüestió.

Es va predir a partir de blastejar les seqüències amb el Blast Protein Browser. Seguidament, a partir de la proteïna predita pel Blast Protein Browser d’Astyanax mexicanus es va realitzar l’alineament amb T-coffee Simple MSA i es va comprovar si realment era un bon alineament.

Predicció SECIS

Els elements SECIS són els responsables de la síntesi de Sec a partir del codó UGA. Per tal de poder predir aquests elements en les proteïnes del Astyanax mexicanus s’ha utilitzat el programa Seblastian. Aquest programa detecta els gens de les selenoproteïnes que es troben upstream d'un element SECIS.

En el cas de no obtenir resultats amb el Seblastian, utilitzem el SECISsearch 3, que és un altre mètode que permet identificar elements SECIS. L'inconvenient d'aquest programa és que només es basa en la seqüència d'entrada i no té en compte que l'element SECIS ha d'estar a la regió 3'UTR.

Filogènia

Un cop realitzat l’anàlisi de les diferents selenoproteïnes, es va utilitzar el programa Phylogeny.fr per fer la filogènia d’aquelles proteïnes predites en la nostre espècie en les quals els scaffolds coincidien en més d’una proteïna (mateixa regió gènica i posició). Mitjançant aquest programa es va comprovar la distància filogenètica entre aquestes proteïnes predites i les proteïnes corresponents en les altres espècies (Homo sapiens, Danio rerio i Takifugu rubipres), i es va poder discernir a quina proteïna corresponien els scaffolds que es repetien. En el programa, es va penjar un fitxer multifasta amb les seqüències de les proteïnes predites per cada scaffold i les seqüències corresponents a les proteïnes de les espècies de referència.

Ens vam trobar en algun cas on el programa Phylogeny.fr no va funcionar. Per tal de solucionar això es va utilitzar un altre programa, el Clustal Omega, per tal d’obtenir l’arbre filogenètic.