| ||
| ||
| ||
| ||
|
Per demostrar com es fa per anotar un gen i per posar a la pràctica tot el que s'ha comentat fins ara, s'intentarà, a partir d'una seqüència que prové del genoma del Tetraodon nigroviridis, buscar i trobar un gen que se sap que s'hi troba.
Aquest gen codifica per una selenoproteïna i per tant, també es posaran de manifest els problemes que comporta treballar amb la presència d'un codó UAG in-frame dins la seqüència.
De la informació de que es disposa és:
La proteïna ortòloga en home correspon a la proteïna 15 kDa selenoprotein isoform 1 precursor i es troba anotada sota aquesta referència: NP_004252.2
És precisament gràcies al nom i a la presència d'aquesta proteïna humana que al gen equivalent en T.nigroviridis s'ha anomenat gen 15kDa.
Per tal d'anotar correctament el gen 15kDa es procedirà a la utilització de diferents programes informàtics. Cada un d'ells servirà per extreure de la seqüència diferent informació que al final es compilarà per donar les conclusions.
A continuació es mostra un breu resum de cada un dels programes utilitzats, així com les comandes usades des del servidor de Persy per aconseguir els resultats esperats. L'ordre en que apareixen correspon únicament al seguit en aquest cas, però no és determinant a l'hora d'anotar un gen.
S'ha de dir també, que les que es mostren seguidament no són ni les úniques ni les millors eines que es poden utilitzar quan es procedeix a anotar però serviran d'exemple per veure els passos que cal seguir.
El Wise2 és un paquet informàtic basat en la comparació de biopolímers, generalment seqüències genòmiques i seqüències proteiques. Cal destacar, doncs, el fet que els dos inputs contenen simbologia diferent: per una banda hi haurà una seqüència nucleotídica i per l'altra una seqüència aminoacídica. Això no suposa cap problema de treball del GENEWISE i per a nosaltres suposa una molt bona eina. A part, permet l'existència d'introns i els errors de frameshifting en les seqüències.
Treballa també amb mètodes d'alineament que poden ser globals o locals, en funció del que es vulgui buscar. És un paràmetre que es pot variar. Altres que també es poden canviar són les senyals dels splice sites, la utilització o no dels intron bias així com l'organisme amb el què s'està treballant. Per defecte, sinó, utilitza els paràmetres d'home.
Un aspecte interessant del GENEWISE és que permet alinear dos seqüències provinents d'espècies diferents. De tal manera que podem alinear una proteïna d'una espècie contra una seqüència genòmica d'una segona espècie. Això és molt útil per buscar proteïnes ortòlegs entre dues espècies, la seqüència de les quals estigui parcialment conservada.
En primer lloc, cal descarregar i instal.lar el programa:
Anar a la pàgina http://www.ebi.ac.uk/Wise2/
Clicar la opció Download Software de la barra de l'esquerra i escollir el wise2.2.0.tar.gz
Un cop s'ha guardat al disc dur, s'ha de descomprimir i desempaquetar mitjançant la comanda:
$ gunzip wise2.2.0.tar.gz | tar -xvf
Després de donar-li els permisos pertinents només faltarà instal.lar-lo.
S'haurà creat un directori anomenat Wise/ que és a on es troben tots els documents README amb la informació del programa, les llicències i els passos per instal.lar-lo.
Per instal.lar-lo cal anar al subdirectori src i introduir la comanda:
$ cd src
$ make all
Al final de l'execució ha de sortir una nota que posi que la instal.lació s'ha realitzat correctament. Després d'això, el genewise està a punt per ser utilitzat.
Els inputs del programa que cal introduir poden estar en qualsevol format, tot i que certs formats poden tenir caràcters amagats que dificultin el BLAST. Es recomenable doncs, introduir els inputs en format FASTA.
En aquest cas, els inputs com ja s'ha comentat, també són dos:
L'output dels alineaments el treu, si així s'especifica a la comanda d'execució,amb l'anomenat pretty alignment que mostra els alineaments i especifica el triplet de nucleòtids que codifiquen per l'aminoàcid corresponent al què s'ha alineat. Si hi ha la presència d'un intró enmig de la proteïna, mostrarà les posicions intròniques així com també si el codó queda o no partit per l'intró.
Hi ha la possibilitat d'especificar el format gff per l'output.
La comanda d'execució utilitzada en el cas de l'exemple és:
$ ./genewise -pretty -trans -cdna -gff -trev input proteïna input genòmic
A on els paràmetres especificats signifiquen:
-prettyEnsenya l'output en mode "pretty".
-transFa la traducció automàtica del gen predit en format FASTA.
-cdnaConstrucció automàtica de la seqüència de DNA en format FASTA.
-gffTreu l'output també en format gff.
-trevAlinia amb el reverse strand del DNA. (NOTA: a lapartat de Discussió ja s'indicarà la importància d'aquest paràmetre per aquest exemple).
Si es vol, es pot redireccionar els resultats a un fitxer determinat, afegint al final de la comanda el símbol > nomdelfitxer .
És important escriure els paths dels fitxers d'input correctament per tal que el programa els pugui recuperar bé.
Altres paràmetres que poden ser modificats es poden trobar utilitzant la comanda:
$ ./genewise
Per veure els nostres resultats clica aquí
A diferència dels altres programes vistos fins ara, aquest només treballa sobre un input, la seqüència genòmica d'interès.
S'ha de pensar però, que el programa treballa amb uns paràmetres per defecte si no s'especifica el contrari. Aquests paràmetres són específics de cada espècie. Les matrius de pesos i els tipus de senyals variaran en funció de l'espècie. Per solventar-ho, GENEID té un subdirectori amb els paràmetres d'unes quantes espècies descrits, de tal manera que a les comandes d'execució només s'ha d'indicar quin es necessita. La versió del GENEID geneid v 1.1, que és la que s'ha utilitzat en aquest cas, conté els paràmetres per les següents espècies:
En primer lloc, cal descarregar i instal.lar el programa:
Entrar a la pàgina http://genome.imim.es/software/geneid
Clicar la opció Source code distribution i escollir el DOWNLOAD del geneid v 1.1
Un cop guardat en el teu disc dur s'ha de descomprimir, compilar i instal.lar seguint les següents comandes:
$ gunzip geneid.tar.gz | tar -xvf
$ cd geneid
$ make
Entrant a bin/geneid -h
es pot veure si el programa ha estat ben intal.lat. També permet veure les opcions de les que disposa.
Després de donar-li els permisos adients, ja estarà a punt per ser executat.
La comanda d'execució és:
$ ./bin/geneid -G input genòmic
a on la -G dictamina la sortida de l'output en format gff. Si es vulgués cambiar els paràmetres a utilitzar s'ha d'indicar així:
$ ./bin/geneid -G -P geneidparams/tetraodon.param.3.v1.1 input genòmic
en aquest cas s'estaria escollint els paràmetres del Tetraodon nigroviridis
L'input que necessita el GENEID es recomana que estigui en format gff i l'output pot ser:
Per veure els nostres resultats clica aquí
L'Spidey serveix per alinear una seqüència genòmica amb diferents mRNAs que provinguin de la mateixa.
Servirà doncs, per predir la localització genòmica dels diferents exons que composen l'estructura dels mRNA després del seu processament post-transcripcional.
S'ha de pensar que els mRNAs no són res més que els trossos codificants de la seqüència genòmica, més parts que ajuden a regular el procés de traducció (com els UTRs amb els elements SECIS). De totes maneres, es parla d'mRNAs tot i que també són vàlids els alineaments amb EST. Aquests tot i ser similars als mRNA, s'aconsegueixen per seqüenciació parcial d'mRNAs.
Per aconseguir-ho treballa amb dos mètodes d'alineament local, el BLAST i el Dot View. Gràcies a ser precisament locals, no es prioritzen introns més o menys curts ni presenta restriccions en la llargada intrònica.
Els alineaments de BLAST són ordenats pels scores i llavors assignats a una finestra mitjançant una funció repetitiva.
Un cop acabat amb tots els possibles alineaments que troba, les finestres són examinades exhaustivament per treure per l'output la següent informació:
Per tal d'utilitzar l'SPIDEY des del servidor Persy cal:
En primer lloc, cal descarregar i instal.lar el programa:
Entrar a la pàgina http://www.ncbi.nlm.nih.gov/spidey
Clicar la opció Spidey executables de la barra de l'esquerra i escollir el spidey.linux.gz
Un cop guardat al disc dur s'ha de descomprimir mitjançant la comanda:
$ gunzip spidey.linux.gz
Després de donar-li els permisos pertinents ja estarà a punt per fer-lo servir.
Els inputs del programa que caldrà introduir han de tenir format FASTA o GI/Accession i són dos: la seqüència genòmica que es vol fer servir de motlle i la o les seqüències de mRNA que es vol llençar contra ella.
L'output el treu també en format FASTA in no és un paràmetre que es pugui modificar.
La comanda d'execució és:
$ ./spideylinux -i input genòmic -m input mRNA
Es pot per un redireccionament per enviar els reslutats en un fitxer. Si no, l'output te'l treu en dos fitxers:
L'Spidey disposa d'altres paràmetres modificables per variar les característiques del BLAST o de la sortida de l'output. Si es volen consultar es pot mirar tot utilitzant la comanda:
$ ./spidey.linux
Per veure els nostres resultats clica aquí
De totes maneres, per tal de poder executar posteriorment el programa gff2ps, és condició indispensable que tots els inputs (és a dir, els outputs dels diferents programes que s'han executat fins ara) estiguin en format gff. L'Spidey és l'únic dels programes utilitzats que no té la opció de treure l'output en format gff. Per tant, un pas previ a la utilització del gff2ps, serà passar el format de sortida d'Spidey a format gff.
El format gff és un format estàndar per descriure anotacions, consistent en una taula que conté les següents columnes:
Per passar els resultats es pot fer de moltes maneres, des d'un programa escirt en Perl, o utilitzant les comandes "GAWK" o de la següent manera des de Unix:
Partint del següent fragment que ens interessa de l'output d'Spidey, al que s'ha anomenat results.gff:
--SPIDEY version 1.40--
Genomic: lcl|SCAF14367 No definition line found, 444931 bp
mRNA: lcl|FD0ADA46CC04.contig No definition line found, 1201 bp
Strand: minus
Number of exons: 14
Exon 1(-): 207037-207057 (gen) 1-21 (mRNA) id 100.0% mismatches 0 gaps 0 splice site (d a): 1 0
Exon 2(-): 205632-205799 (gen) 22-190 (mRNA) id 99.4% mismatches 1 gaps 1 splice site (d a): 1 1
Exon 3(-): 204388-204451 (gen) 191-254 (mRNA) id 100.0% mismatches 0 gaps 0 splice site (d a): 1 1
Exon 4(-): 204132-204181 (gen) 255-304 (mRNA) id 100.0% mismatches 0 gaps 0 splice site (d a): 1 1
Exon 5(-): 203568-204054 (gen) 305-791 (mRNA) id 96.9% mismatches 15 gaps 0 splice site (d a): 0 1
s'han aplicat les següents comandes:
$ egrep 'Genomic' results.gff | cut -d ' ' -f '2' > id.gff $ egrep 'Exon' results.gff | cut -d ' ' -f '1' > exo.gff $ egrep 'Exon' results.gff | cut -d ' ' -f '3' > posicions.gff $ cut -d ' ' -f '1' posicions.gff > posinici.gff $ cut -d ' ' -f '2' posicions.gff > posfinal.gff $ egrep 'Exon' results.gff | cut -d ' ' -f '10' > score.gff $ egrep 'Exon' results.gff | cut -c '8' > strand.gff
La resta de columnes s'han afegit a mà mitjançant l'editor de textos emacs. S'ha de comentar que utilitzant el cut per crear l'identificador, només n'extreu un i per tant els altres també s'han d'escriure amb l'emacs.
Els outputs de les comandes anteriors s'hauran de fusionar en un mateix arxiu mitjançant la comanda:
$ paste id.gff programa.gff exo.gff posinici.gff posfinal.gff score.gff strand.gff buit.gff > spidey.gffI, si fem un
$ more spidey.gffsortirà el següent output que ja servirà per passar-lo pel gff2ps:
SCAF14367 spidey Exon 207037 207057 100.0 - . . SCAF14367 spidey Exon 205632 205799 99.4 - . . SCAF14367 spidey Exon 204388 204451 100.0 - . . SCAF14367 spidey Exon 204132 204181 100.0 - . . SCAF14367 spidey Exon 203568 204054 96.9 - . .
El SECISearch 2.0, és un programa que té servidor online, de manera que es pot utilitzar directament des de la web.
Es tracta d'un programa per identificar candidats a estructures SECIS dins d'una seqüència nucleotídica que se li introdueix. Es basa en tractar d'identificar possibles estructures secundàries dins la seqüència, així com la seva energia lliure associada.
El programa conté tres moduls:
En primer lloc s'han buscat elements SECIS en cadascuna de les seqüències dels mRNAs i ESTs de partida, de la següent manera:
Entrar la seqüència a la finestreta
Modificar la opció establerta per defecte per l'opció canonical and non-canonical
Prémer el botó Submit
El programa realitza la seva cerca i mostra per pantalla:
Quan es tracta d'anotar un gen, sempre és interessant inferir la localització dels resultats obtinguts a partir dels cDNAs o ESTs dins la seqüènica genòmica.
Un cop s'ha esbrinat quins ESTs o cDNA contenen el SECIS, es fa un BLASTN contra el genoma, per tal de localitzar-lo dins d'aquest.
Es realitza el BLASTN des del servidor Persy utilitzant les següents comandes:
formatdb -p F -i input -n basededades
Aquesta comanda, crea una base de dades contra la qual farà el BLASTN, a partir de la seqüència (input) que se li especifica. El paràmetre -p defineix el tipus de biopolímer que s'introdueix (aminoàcids -default- o nucleòtids -F-).
Tot seguit es procedeix a fer el BLASTN, amb la següent comanda:
blastall -p blastn -i input -d basededades -o output
Per veure els nostres resultats clica aquí
Aquest programa permet fer gràfics dels postscript-outputs provinents de fitxers amb format gff. Serveix per visualitzar anotacions de seqüències genòmiques.
Com a input agafa una seqüència genòmica en format gff i produeix un output en postscript visual.
Cal dir que el format gff (General Feature Format) és un dels formats més utilitzats quan es treballa amb anotació. Es pot trobar més informació a la pàgina: http://www.sanger.ac.uk/Software/format/GFF/GFF_Spec.shtml
A partir del postscript, ja es podrà veure la imatge.
A diferència dels altres programes utilitzats, aquest no fa cap modificació a la informació que rep. Només transforma les dades per tal que puguin ser convertides a imatge.
Una de les opcions més útils d'aquesta eina, és que es pot passar els outputs en gff obtinugts de diferents programes en un input i crearà un sol gràfic distingint els resultats de cada lloc. Això servirà per COMPARAR els resultats extrets pels altres mètodes informàtics.
Instruccions d'ús
Per tal d'utilitzar el programa gff2ps a través del Servidor Persy, primer de tot cal baixar-lo i instal.lar-lo al disc dur. Els executables de gff2ps es poden buscar a la pàgina: http://genome.imim.es/software/gfftools/GFF2PS.html
Dins l'apartat de Contents, clicar la opció DOWNLOADING gff2ps. Descarregar el gff2ps program i guardar-lo al disc dur.
Per descomprimir-lo i compil.lar-lo cal executar les següents comandes:
$ gunzip *.tar.gz | tar -xvf
Un cop fet això, ja està a punt d'utilització.
La comanda d'execució és:
$ gff2ps paràmetres -- input.gff > output.ps
Per passar els resultats de més d'un programa, abans d'utilitzar la comanda d'execució, es poden unificar els outputs en un sol fitxer utilitzant la comanda:
$cat output1 output2 output3 output4 (...) > input.gff
Per tal de visualitzar la imatge, primer cal convertir l'output en format d'imatge jpg:
$ convert -rotate 90 output.ps output.jpg
Es podrà obrir, utilitzant un programa que visualitza imatges binàries (formats jpg, jpeg...) com l'Electric Eyes cridant-lo així:
$ ee output.jpg &
Hi ha molts paràmetres que es poden modificar per tal de millorar la visualització de la imatge. Els aquí utilitzats han sigut els:
S'ha de dir que es recomana la utilització de la versió gff2ps.v98e del programa, ja que s'ha vist que versions anteriors donen errors a l'executar paràmetres com el -S o el -E.
Més paràmetres modificables del programa es poden trobar anant a:
$ ./gff2ps -h
És important reiterar que per tal d'aconseguir el bon funcionament dels programes explicats fins ara és imprescindible especificar ve les rutes per extreure els fitxers i les rutes per executar el programa des del lloc adequat.
Peix globus verd (o peix bufador)
Tetraodon nigroviridis
Fins a 15cm en l'hàbitat natural, però molt més petit si és criat en aquaris
Rius i estuaris d'Indonèsia, Malàsia i Índia. Aigües a temperatures entre 24 i 28 graus
Larves de mosquit, cucs, cargols, escopinyes i musclos
Desconeguda
Mida: 350 Mb (posseeix el genoma de vertebrat més petit dels coneguts)
Quantitat de material genètic per cèl.lula: 0.7 pg
Número de cromosomes: 21 cromosomes
Tamany dels cromosomes: oscil.len entre 11 i 30 Mb
Com a vertebrat que és, el seu genoma és molt similar als d'altres vertebrats coneguts, inclòs el d'home o de ratolí. S'ha observat (Brenner et al, 1993) que el genoma d'aquest peix, així com d'altres de la seva mateixa família, conté molt poca quantitat d'ADN repetitiu. Això fa d'aquest peix una bona eina per estudiar genomes de vertebrats ja que aproximadament la mateixa informació està continguda en un tamany 8 vegades menor.