El genoma de l’espècie estudiada, Tupaia chinensis, va ser proporcionat pels professors de l’assignatura de bioinformàtica. Es pot trobar en el següent fitxer:
/cursos/BI/genomes/project_2014/Tupaia_chinensis/genome.fa
Les querys utilitzades en la recerca de selenoproteïnes s’han extret del genoma del ratolí (Mus musculus) i de l’humà (Homo sapiens) en la base de dades SelenoDB 2.0.
S’ha vist que aquestes dues espècies presenten selenoproteïnes amb diferents isoformes. Per tal de saber quina d’aquestes cal agafar, s’ha utilitzat la base dades Uniprot com a referència. D’aquesta manera, només s’han escollit aquelles isoformes de selenoproteïnes presents en l’Uniprot. Si en aquesta base de dades també hi ha més d’una isoforma, s’ha agafat la més llarga, ja que es considera que aquesta engloba les altres. A més, si la selenoproteïna no està anotada a l'Uniprot s'ha agafat l'isoforma més llarga de SelenoDB 2.0.
Així doncs, s’han descarregat les selenoproteïnes de les dues espècies a partir del SelenoDB i han passat un pas de selecció a partir de l’Uniprot. Seguidament, s’han canviat les selenocisteïnes (U) presents en les querys per una X a partir de la següent comanda introduida al shell:
~/dades/human > cat sp_human.fa | tr U X > sp_nomfitxer.fa
On sp_nomfitxer.fa és on s'emmagatzema el fitxer resultant. Finalment s’ha emmagatzemat cada selenoproteïna en fitxers de text individuals dins d'una carpeta anomenada query.
                                                                                               
El BLAST (
Basic Local Alignment Search Tool) és un programa informàtic que permet comparar dues seqüències biològiques i trobar regions de similitud local entre aquestes. Existeixen diferents tipus de BLAST segons el format de les seqüències que s’utilitzen. En aquest treball s’ha utilitzat el tBLASTn, que compara una seqüència proteica (una
query determinada) amb una base de dades de nucleòtids (el genoma de l’espècie).
Finalment, tBLASTn proporciona els diferents
hits trobats per cada selenoproteïna alineada amb el genoma de la Tupaia.
Primer cal executar la següent ordre al
shell per tal de poder treballar amb aquest programa:
$exportPATH=/cursos/BI/bin/ncbiblast/bin:$PATH
$cp/cursos/BI/bin/ncbiblast/.ncbirc~/
En aquest moment s'ha tingut tot apunt per realitzar el tBLASTn. Per fer-ho, s’utilitza la següent comanda:
$ blastall -p tblastn -i query.fa -d genomes.fa -o query_blast.fa
On p indica el tipus de blast, i fa referència al fitxer de la query (la selenoproteïna de ratolí o humà), d fa referència al genoma de l’espècie estudiada i o indica la ubicació i el nom del fitxer on el BLAST emmagatzema els resultats de la cerca.
                                                                                               
Un cop realitzat el tBLASTn, s’han seleccionat els hits més significatius. El criteri general que s’ha establert ha estat, per una banda que l’e-value de l’scaffold fos inferior o igual a 1e-10. L'e-value s’interpreta com el nombre esperat de diferents alineaments (HSPs) que s'obtenen amb una puntuació (score) major o igual a un valor donat per casualitat en la cerca en una base de dades. Per tant, com més gran sigui l'e-value, menys significant és el match.
Per altra banda, la selenocisteïna de la query s’ha de trobar alineada amb una selenocisteïna, un codó stop (possible predicció d’una selenoproteïna) o amb una cisteïna (possible homòleg en cisteïna).
                                                                                               
Un cop s’han obtingut tots els hits a partir del BLAST i s’ha triat el que es vol estudiar, cal extreure’l de la regió genòmica. Per això, primer de tot cal indexar el genoma de l'espècie utilitzant les següents comandes:.
$ export PATH=/cursos/BI/soft/exonerate/i386/bin:$PATH
$ fastaindex genome.fa tchinensis.index
L'argument genome.fa és el genoma de l'espècie estudiada, mentre que tchinensis.index és el fitxer de sortida indexat.
A continuació, a partir de la indexació del genoma s'han realitzat arxius per a cada regió i s'han extret els d’interès. Aquest pas es duu a terme amb la següent comanda:
$fastafetch genome.fa tchinensis.index nomregio > nomregio.fa
L’argument nomregio es refereix al nom de l’scaffold seleccionat i nomregio.fa el fitxer que es crea amb aquesta comanda.
Seguidament, es delimita encara més la regió d’interès mitjançant el programa Fastasubseq per tal d'obtenir seqüències encara més curtes i precises del fragment que probablement conté la selenoproteïna. La comanda és la següent:
$ fastasubseq nomregio.fa start length > genomic.fa
L'argument start indica la posició d'inici del genoma a partir del qual s'agafa la subseqüència, mentre que length indica la quantitat de nucleòtids que tindrà la subseqüència i genomic.fa és el fitxer de sortida que contindrà la subseqüència delimitada.
Els paràmetres start i length s'han extret a partir dels fitxers que contenien els resultats del BLAST. En el nostre cas, el que s’ha realitzat és mirar on comença i on acaba l’alineament dins del genoma de T. chinensis, tenint en compte si l’alineament és forward o reverse. Seguidament, per tal d’assegurar que la subseqüència incloia el gen d'interès sencer, s’han ampliat els marges downstream i upstream de l'alineament, considerant la posició inicial de la subseqüència 10.000 nucleòtids upstream de la posició inicial i s'ha agafat una llargada de 25.000 nucleòtids. D'aquesta manera, s'ha assegurat agafar tota la subseqüència d'interès.
No obstant, si en el següent pas en que es realitza l’Exonerate no s'inclou a tota la subseqüència, es corregeixen els valors anteriors.
                                                                                               
Exonerate és un programa utilitzat per a la predicció de gens. Permet obtenir un alineament acurat i predir l'estructura exònica de la seqüència problema. Així doncs, permet assegurar que el hit es troba dins l'exó, i que per tant, codifica per una proteïna. La comanda que realitza aquesta funció és la següent:
$ exonerate -m p2g --showtargetgff -q query.fa -t genomic.fa > exonerate.gff
On l'argument -m indica el model de l'alineament a utilitzar, en aquest cas p2g que significa protein to genome, és a dir, comparar una seqüència proteica amb una seqüència de DNA. El paràmetre -q especifica la query, en el nostre cas query.fa, i -t la seqüència contra la que es compara la query, és a dir el hit que s’ha obtingut del genoma de la nostra espècie en el pas anterior. Finalment el resultat es mostra en l’output exonerate.gff, on es representa l’alineament entre la query i la regió hit.
El següent pas és l’obtenció del cDNA, és a dir els exons d’aquesta regió. La comanda és la següent:
$ egrep -w exon exonerate.gff > cdna.gff
On egrep -w s’encarrega de seleccionar les files del fitxer exonerate.gff que contenen la paraula exon. Per extreure la seqüència que s'ha alineat a l'Exonerate es fa amb format FASTA.
A partir de les seqüències exòniques en format GFF, s'ha passat a format FASTA gràcies al programa FastaseqfromGFF.pl. Abans d'executar-lo cal indicar al shell el permís següent:
$ export PATH=/cursos/BI/bin:$PATH
L'ordre per executar el programa és:
$ fastaseqfromGFF.pl genomic.fa cdna.gff > cdna.fa
Finalment a partir del fastatranslate es tradueix el cDNAper obtenir la proteïna per mitjà de la comanda:
$ fastatranslate - pautadelecturacdna.fa > translate.fa
On l’argument pauta de lectura indica que caldrà posar la pauta de lectura que correspongui a la nostra regió, per exemple –F 1 per tal de que agafi la primera pauta de lectura forward.
Cal remarcar que si el fitxer resultant de l'Exonerate no incloia tota la sequència s'ha realitzat un Exonerate exhaustive mitjançant la següent comanda:
$ exonerate -m p2g --showtargetgff -q query.fa -t genomic.fa -E >exonerate.gff
                                                                                               
El programa T_coffee s’empra per realitzar alineaments globals múltiples utilitzant un mètode progressiu que aparella seqüències semblants, en el nostre cas, s’ha utilitzat per alinear la nostra
query amb la seqüència de la proteïna predita anteriorment.
S'executa amb la següent comanda:
$ t_coffee query.fa translate.fa > tcoffee.fa
L’alineament resultant a part de permetre veure la similitud entre els aminoàcids de la query i de la proteïna predita, mostra l’alineament entre les selenocisteïnes.
                                                                                               
Es realitza la cerca d'elements SECIS en totes les proteïnes estudiades. Cal tenir en compte que es pot trobar un element SECIS a l'extrem 3'UTR d'una no-selenoproteïna.
[2]
Aquesta cerca permet confirmar que el codó UGA correspon a una selenocisteïna i no a una senyal de finalització. Per tal de buscar-los en el genoma de la nostra espècie, s’ha utilitzat la versió web del
software SECISearch 3.0/Seblastian. Aquest programa busca els possibles elements SECIS i valora la seva estructura tridimensional i les seves característiques termodinàmiques.
En aquesta pàgina web s’hi introdueix la regió del genoma on es troba el
hit, el fitxer
genòmic.fa i el mateix programa dóna una predicció de si presenta SECIS o no. A més, mostra en quina distància es troba respecte el codó UGA i respecte el final de la regió en el cas que el programa trobi una selenocisteïna. Un cop obtingut els resultats, s’han considerat vàlids aquells elements SECIS localitzats a la regio 3’ de la proteïna, a una distància de com a màxim 3.000 nucleòtids (tenint en compte que normalment està a una distància de 500-600 nucleòtids) i d'alt grau de fiabilitat
A.
                                                                                               
Pel tal d’estalviar posar les comandes cada vegada, s’ha realitzat un programa amb bash que inclou totes les comandes i va indicant que cal realitzar pas a pas. Per tal de fer servir el programa, cal que es tinguin totes les querys en fitxers independents i dins d'una carpeta anomenada query.
Quan s'executa el programa, primer de tot es dóna l'opció d'escollir la query que es vol analitzar. Després d'escollir-la es realitza una carpeta per aquesta i s'executa el BLAST, del qual també es pot triar l'scaffold d'interès.
A continuació, el genoma de l'espècie estudiada s'indexa. Aquest procés només es realitza la primera vegada que s'analitza la query, ja que aquest fitxer es guarda i després serveix per totes les querys.
Un cop triat l'scaffold, es realitza una carpeta d'aquest dins la carpeta de la query, on s'aniran guardant tots els fitxers que s'obtenen al llarg de l'execució del programa.
Seguidament, el programa demana l'inici i la llargada que cal agafar per realitzar el Fastasubseq. Si l'Exonerate agafa la regió que interessa es pot seguir executant el programa i obtenir el cDNA i la proteïna, donant abans l'opció d'escollir la pauta de lectura adient.
Finalment, abans de realitzar el t-coffee el programa indica que cal canviar les X dels fitxers fastatranslate.fa i query.fa per U per tal de realitzar l'alineament adequadament.
Cal dir que un cop s'ha analitzat l'scaffold d'una query, si es vol tornar a analitzar, el propi programa informa que ja s'ha fet anteriorment i dóna la opció de veure'n els resultats.
Gràcies a aquesta automatització l’anàlisi de cada query és més ràpida. A més, es pot anar veient què succeeix en cada pas i rectificar en cas necessari.
A continuació es pot veure el codi del programa:
                                                                                               
En el cas de que el resultat de l'Exonerate no fos del tot satisfactori, s'ha executat el programa Genewise. Aquest programa compara la seqüència
query.fa amb la subseqüència
genomic.fa de
T. Chinensis utilitzant un algorisme diferent al del programa Exonerate.
D'aquesta manera es pot obtenir, en alguns casos, un alineament nou. Per tal de poder-lo utilitzar s'han d'escriure les següents ordres en el shell:
$ export PATH=/cursos/BI/bin:$PATH
$ export WISECONFIGDIR=/cursos/BI/soft/wise-2.2.0/wisecfg
I per tal d'executar-lo, s'ha d'escriure la següent comanda:
$ genewise -pep -pretty -cdna -gff query.fa genomic.fa
Per tal d'automatitzar aquest procés, s'ha realitzat un programa en bash que permet realitzar el programa Genewise i t-coffee directament a partir del fitxer genomic.fa existent en la carpeta de la query. A més, es pot seleccionar la query desitjada i l'scaffold d'interès emmagatzemant els resultats a la mateixa carpeta on es guarden els resultats de l'automatització anterior.
A continuació es pot veure el codi del programa:
                                                                                               
També s'han analitzat les proteïnes de maquinària de síntesi de les selenoproteïnes per tal de donar més evidència a l'existència d'aquestes en Tupaia chinensis.