Materials i mètodes
Obtenció del genoma
El genoma de l'espècie Lethenteron camtschaticum la vam trobar en una carpeta proporcionada pels professors de l'assignatura de Bioinformàtica:
/cursos/BI/genomes/vertebrates/2014/Lethenteron_camtschaticum/genome.fa
Per tal de no haver d'escriure tot el path cada cop que es necessités el genoma, es va fer un link a la carpeta de l'usuari que portés directament a la carpeta de Lethenteron_camtschaticum:
ln -s /cursos/BI/genomes/vertebrates/2014/Lethenteron_camtschaticum/
Obtenció de querys
Les querys fetes servir per buscar les selenoproteïnes en el genoma assignat provenien tant de Homo sapiens (les selenoproteïnes del qual estan anotades amb una alta qualitat) com de Petromyzon marinus (l'espècie més propera de la qual hi ha les selenoproteïnes anotades). Totes aquestes seqüències les hem extret de la base de dades SelenoDB.
Com que poden haver-hi anotacions amb mides diferents, sempre s'ha agafat la que fos més llarga per tal d'incloure tota la proteïna i no perdre informació.
Un cop adquirides, es pot observar que en algunes hi ha l'aminoàcid “U”. Els programes d'anàlisi no reconeixen aquest aminoàcid i per tant s'ha de canviar per una “X”, que els programes reconeixen com a indeterminat:
cat query.fa | tr U X > query.fa
tBLASTn
Per poder comparar 2 seqüències i trobar regions on hi hagi una similitud local fem servir un programa anomenat BLAST (Basic Local Alignment Search Tool). Existeixen diferents tipus de BLAST segons el que estiguem comparant, aquí per exemple estem comparant una seqüència proteica (la de la nostre query) amb una seqüència de nucleòtids (els del nostre genoma). Per tant la variant del BLAST que fem servir és el tBLASTn.
El primer que s'ha de fer és exportar el programa al shell per poder treballar amb ell:
exportPATH=/cursos/BI/bin/ncbiblast/bin:$PATH
cp/cursos/BI/bin/ncbiblast/.ncbirc~/
A partir d'ara, sempre que no tanquem el terminal podrem fer servir el tBLASTn amb la següent comanda:
blastall -p tblastn -i query.fa -d genomes.fa -o query_blast.fa
Cal recordar què volen dir els següents elements:
- -p: fa referència al tipus de BLAST que fem servir, com ja hem dit, en el nostre cas fem servir el tBLASTn.
- -i: fa referència al fitxer de la query.
- -d: fa referència al genoma de l'espècie assignada, on volem trobar les selenoproteïnes.
- -o: indica com es diu el fitxer de sortida on estarà el resultat del BLAST.
Fastaindex
El genoma assignat està en un format MULTIFASTA, per tal de crear un sol arxiu FASTA i poder indexar el genoma s'ha executat el Fastaindex:
fastaindex genome.fa query.index
Scaffold i Hit
Un cop fet el tBLASTn i haver indexat el genoma, hem de seleccionar el hit més significatiu. El primer que hem de mirar és si la selenocisteïna o cisteïna de la nostre query està alineada amb una cisteïna o amb un codó STOP. En cas afirmatiu, ens podem trobar que hi hagi més d'una possibilitat; s'agafa l'scaffold que tingui el valor de e-value més baix. El e-value ens diu la possibilitat d'obtenir aquell alineament a l'atzar en la base de dades que estem mirant, com més baix sigui el valor, menys probable que l'alineament sigui degut a l'atzar. L'scaffold ens diu en quin lloc hem trobat aquell alineament.
Amb l'ordre fastafetch el que fem és extreure la regió del genoma on hem trobat el hit:
fastafetch genome.fa query.index numregio > numregio.fa
On numregió fa referència a l'scaffold.
Fastasubseq
Un cop tenim la regió del genoma, s'ha de limitar la regió a la que s'ha trobat el hit per tal d'obtenir la seqüència de la proteïna sencera:
fastasubseq numregio.fa start lenght > genomic.fa
On start fa referència a la posició inicial on volem que començi i length la mida de nucleòtids que volem mirar.
Exonerate
El programa Exonerate ens permet predir on són els gens, d'aquesta manera podem veure si el nostre alineament està dins una regió exònica, i que per tant serà codificada com a proteïna.
El primer que s'ha de fer és exportar el programa al shell per poder treballar amb ell:
export PATH=/cursos/BI/soft/exonerate/i386/bin:$PATH
Per executar el programa fem servir la següent comanda:
exonerate -m p2g --showtargetgff -q query.fa -t genomic.fa -E> exonerate.gff
Cal recordar què volen dir els següents elements:
- -m: ens indica quin alineament estem fent servir, en aquest cas fem servir p2g (protein to genome), és a dir, estem comparant una query anotada amb aminoàcids amb una seqüència de nucleòtids.
- -q: fa referència a la nostra query.
- -t: la seqüència amb la que comparem la query, és a dir, la regió on hem trobat el hit.
- -E: representa l'argument exhaustive, per a estar segurs de que s'inclogui tota la seqüència.
A continuació s'obté el cDNA, és a dir, els exons que podem trobar en aquesta regió:
egrep -w exon exonerate.gff > cdna.gff
On egrep -w ens indica que seleccionarem només aquelles files del fitxer exonerate.gff que continguin la paraula exon i ho copiarà a l'arxiu cdna.gff.
Necessitem un programa que sigui capaç de canviar el format gff a FASTA per poder continuar amb l'anàlisi, per exportar-ho al shell fem servir la comanda:
export PATH=/cursos/BI/bin:$PATH
Per a executar el programa:
fastaseqfromGFF.pl genomic.fa cdna.gff > cdna.fa
Per poder comparar les 2 seqüències obtingudes, primer hem de traduir la seqüència de DNA per a obtenir la seqüència d'aminoàcids:
fastatranslate -f cdna.fa -F 1 > translate.fa
Quan el programa ja ha traduït la seqüència, als llocs on hi hagi un codó STOP hi ha un “*” en el pròxim pas, el programa no reconeix aquest símbol; per tant hem d'obrir el fitxer translate.fa i canviar els “*” per una X.
T-coffee
Aquest programa serveix per realitzar alineaments globals múltiples utilitzant un mètode progressiu que aparella seqüències semblants. En el nostre cas alinearem la nostre query i la nostre seqüència traduïda.
Per exportar el programa al shell:
export PATH=/cursos/BI/soft/t_coffee/i386/bin:$PATH
Per executar la comanda:
t_coffee query.fa translate.fa > tcoffee.fa
Gràcies a aquest programa veurem quin és l'alineament òptim i veurem com estan alineades les selenocisteïnes trobades.
SECIS
Per totes les proteïnes hem realitzat una cerca d'elements SECIS. Això ens permet confirmar si un codó UGA correspon realment a una selenocisteïna i no a una senyal de finalització. Els elements SECIS es poden trobar a les selenoproteïnes, però també en proteïnes que no ho siguin.
Per tal de realitzar aquesta cerca hem utilitzat el SECISearch 3.0/Seblastian. En la seva pàgina web s'hi introdueix la regió del genoma on es troba l'scaffold d'interès, i ens dóna els possibles elements SECIS.
Automatització
Amb l'objectiu d'estalviar temps i poder-lo dedicar a l'anàlisi dels resultats, s'ha realitzat un programa que inclou les comandes necessàries, juntament amb petits comentaris per entendre el que s'està fent. Per tal de que funcioni correctament, és necessari que totes les querys estiguin a la mateixa carpeta que el programa.
Primerament, tenim un programa en bash per fer els exports i canviar les U per X de les querys. A més, permet l'execució del programa següent en perl. Aquest analitzarà si una determinada query es troba en el genoma de Lethenteron camtschaticum.
Programes:
- Shell: programa.sh
- Perl: programa.pl