Materials i mètodes

Seqüències utilitzades	Programes utilitzats	Tetraodon nigroviridis
	Genewise
	Geneid
	Spidey
	SECISearch
	Gff2ps

Seqüències utilitzades

Per demostrar com es fa per anotar un gen i per posar a la pràctica tot el que s'ha comentat fins ara, s'intentarà, a partir d'una seqüència que prové del genoma del Tetraodon nigroviridis, buscar i trobar un gen que se sap que s'hi troba.

Aquest gen codifica per una selenoproteïna i per tant, també es posaran de manifest els problemes que comporta treballar amb la presència d'un codó UAG in-frame dins la seqüència.

De la informació de que es disposa és:

Fragment de seqüència genòmica de Tetraodon nigroviridis que conté el gen a anotar
Seqüències de transcrit de Tetraodon nigroviridis (cDNAs i ESTs) corresponents a aquest gen
Seqüència de la proteïna ortòloga de 15kDa en humans

La proteïna ortòloga en home correspon a la proteïna 15 kDa selenoprotein isoform 1 precursor i es troba anotada sota aquesta referència: NP_004252.2

És precisament gràcies al nom i a la presència d'aquesta proteïna humana que al gen equivalent en T.nigroviridis s'ha anomenat gen 15kDa.

Per tal d'anotar correctament el gen 15kDa es procedirà a la utilització de diferents programes informàtics. Cada un d'ells servirà per extreure de la seqüència diferent informació que al final es compilarà per donar les conclusions.

A continuació es mostra un breu resum de cada un dels programes utilitzats, així com les comandes usades des del servidor de Persy per aconseguir els resultats esperats. L'ordre en que apareixen correspon únicament al seguit en aquest cas, però no és determinant a l'hora d'anotar un gen.

S'ha de dir també, que les que es mostren seguidament no són ni les úniques ni les millors eines que es poden utilitzar quan es procedeix a anotar però serviran d'exemple per veure els passos que cal seguir.

Programes utilitzats

GENEWISE

El Wise2 és un paquet informàtic basat en la comparació de biopolímers, generalment seqüències genòmiques i seqüències proteiques. Cal destacar, doncs, el fet que els dos inputs contenen simbologia diferent: per una banda hi haurà una seqüència nucleotídica i per l'altra una seqüència aminoacídica. Això no suposa cap problema de treball del GENEWISE i per a nosaltres suposa una molt bona eina. A part, permet l'existència d'introns i els errors de frameshifting en les seqüències.

Treballa també amb mètodes d'alineament que poden ser globals o locals, en funció del que es vulgui buscar. És un paràmetre que es pot variar. Altres que també es poden canviar són les senyals dels splice sites, la utilització o no dels intron bias així com l'organisme amb el què s'està treballant. Per defecte, sinó, utilitza els paràmetres d'home.

Un aspecte interessant del GENEWISE és que permet alinear dos seqüències provinents d'espècies diferents. De tal manera que podem alinear una proteïna d'una espècie contra una seqüència genòmica d'una segona espècie. Això és molt útil per buscar proteïnes ortòlegs entre dues espècies, la seqüència de les quals estigui parcialment conservada.

Instruccions d'ús

Per tal d'utilitzar el GENEWISE des del servidor Persy cal:

En primer lloc, cal descarregar i instal.lar el programa:

Anar a la pàgina http://www.ebi.ac.uk/Wise2/

Clicar la opció Download Software de la barra de l'esquerra i escollir el wise2.2.0.tar.gz

Un cop s'ha guardat al disc dur, s'ha de descomprimir i desempaquetar mitjançant la comanda:

    $ gunzip wise2.2.0.tar.gz | tar -xvf

Després de donar-li els permisos pertinents només faltarà instal.lar-lo.

S'haurà creat un directori anomenat Wise/ que és a on es troben tots els documents README amb la informació del programa, les llicències i els passos per instal.lar-lo.

Per instal.lar-lo cal anar al subdirectori src i introduir la comanda:

    $ cd src

    $ make all

Al final de l'execució ha de sortir una nota que posi que la instal.lació s'ha realitzat correctament. Després d'això, el genewise està a punt per ser utilitzat.

Els inputs del programa que cal introduir poden estar en qualsevol format, tot i que certs formats poden tenir caràcters amagats que dificultin el BLAST. Es recomenable doncs, introduir els inputs en format FASTA.

En aquest cas, els inputs com ja s'ha comentat, també són dos:

la seqüència genòmica que s'utilitzarà de motlle pel BLAST
la seqüència proteica que es vol alinear amb ella

L'output dels alineaments el treu, si així s'especifica a la comanda d'execució,amb l'anomenat pretty alignment que mostra els alineaments i especifica el triplet de nucleòtids que codifiquen per l'aminoàcid corresponent al què s'ha alineat. Si hi ha la presència d'un intró enmig de la proteïna, mostrarà les posicions intròniques així com també si el codó queda o no partit per l'intró.

Hi ha la possibilitat d'especificar el format gff per l'output.

La comanda d'execució utilitzada en el cas de l'exemple és:

    $ ./genewise -pretty -trans -cdna -gff -trev input proteïna input genòmic

A on els paràmetres especificats signifiquen:

```
-pretty
```
Ensenya l'output en mode "pretty".
```
-trans
```
Fa la traducció automàtica del gen predit en format FASTA.
```
-cdna
```
Construcció automàtica de la seqüència de DNA en format FASTA.
```
-gff
```
Treu l'output també en format gff.
```
-trev
```
Alinia amb el reverse strand del DNA. (NOTA: a lapartat de Discussió ja s'indicarà la importància d'aquest paràmetre per aquest exemple).

Si es vol, es pot redireccionar els resultats a un fitxer determinat, afegint al final de la comanda el símbol > nomdelfitxer .

És important escriure els paths dels fitxers d'input correctament per tal que el programa els pugui recuperar bé.

Altres paràmetres que poden ser modificats es poden trobar utilitzant la comanda:

    $ ./genewise

Per veure els nostres resultats clica aquí

GENEID

Anomenat "predictor de gens", aquest programa es dedica a predir gens dins de seqüències genòmiques introduïdes. Per dur-ho a terme realitza aquesta sèrie de passos seqüencials:

Predir els splice sites i els codons d'inici i d'stop.
Atorgar un score a les diferents senyals predites. Per fer-ho utilitza els Position Weight Arrays (PWA), matrius de pesos.
Construcció dels exons i càlcul del seu score. L'score dels exons es calcula com la suma de l'score de les senyals que l'integren.
Ensemblatge de l'estructura gènica a partir dels exons predits. Per escollir els exons que formaran l'estructura gènica, es maximitza la suma dels scores dels exons.

A diferència dels altres programes vistos fins ara, aquest només treballa sobre un input, la seqüència genòmica d'interès.

S'ha de pensar però, que el programa treballa amb uns paràmetres per defecte si no s'especifica el contrari. Aquests paràmetres són específics de cada espècie. Les matrius de pesos i els tipus de senyals variaran en funció de l'espècie. Per solventar-ho, GENEID té un subdirectori amb els paràmetres d'unes quantes espècies descrits, de tal manera que a les comandes d'execució només s'ha d'indicar quin es necessita. La versió del GENEID geneid v 1.1, que és la que s'ha utilitzat en aquest cas, conté els paràmetres per les següents espècies:

Drosophila Melanogaster
Homo sapiens (que serveix per qualsevol altre genoma de vertebrat)
Dictyostelium discoideum
Tetraodon nigroviridis (que pot ser utilitzat en cas del genoma de Fugu rubripes)
Plasmodium falciparum
Triticum aestivum
Caenorhabditis elegans
Arabidopsis thaliana
Oryza sativa

Instruccions d'ús

Per tal d'utilitzar el GENEID des del servidor Persy cal:

En primer lloc, cal descarregar i instal.lar el programa:

Entrar a la pàgina http://genome.imim.es/software/geneid Clicar la opció Source code distribution i escollir el DOWNLOAD del

geneid v 1.1

Un cop guardat en el teu disc dur s'ha de descomprimir, compilar i instal.lar seguint les següents comandes:

$ gunzip geneid.tar.gz | tar -xvf
$ cd geneid
$ make

Entrant a

bin/geneid -h

es pot veure si el programa ha estat ben intal.lat. També permet veure les opcions de les que disposa. Després de donar-li els permisos adients, ja estarà a punt per ser executat. La comanda d'execució és:

$ ./bin/geneid -G input genòmic

a on la -G dictamina la sortida de l'output en format gff. Si es vulgués cambiar els paràmetres a utilitzar s'ha d'indicar així:

$ ./bin/geneid -G -P geneidparams/tetraodon.param.3.v1.1 input genòmic

en aquest cas s'estaria escollint els paràmetres del Tetraodon nigroviridis

L'input que necessita el GENEID es recomana que estigui en format gff i l'output pot ser:

geneid format
gff format
xml format
extended format

Per veure els nostres resultats clica aquí

SPIDEY

L'Spidey serveix per alinear una seqüència genòmica amb diferents mRNAs que provinguin de la mateixa.

Servirà doncs, per predir la localització genòmica dels diferents exons que composen l'estructura dels mRNA després del seu processament post-transcripcional.

S'ha de pensar que els mRNAs no són res més que els trossos codificants de la seqüència genòmica, més parts que ajuden a regular el procés de traducció (com els UTRs amb els elements SECIS). De totes maneres, es parla d'mRNAs tot i que també són vàlids els alineaments amb EST. Aquests tot i ser similars als mRNA, s'aconsegueixen per seqüenciació parcial d'mRNAs.

Per aconseguir-ho treballa amb dos mètodes d'alineament local, el BLAST i el Dot View. Gràcies a ser precisament locals, no es prioritzen introns més o menys curts ni presenta restriccions en la llargada intrònica.

Els alineaments de BLAST són ordenats pels scores i llavors assignats a una finestra mitjançant una funció repetitiva.

Un cop acabat amb tots els possibles alineaments que troba, les finestres són examinades exhaustivament per treure per l'output la següent informació:

el percentatge d'identitat per exó
el número de gaps per exó
el percentatge d'identitat global
el percentatge d'mRNA alineat
número de splice donor sites i acceptors sites per a cada exó
la cadena que s'ha alineat
la freqüència en què un mRNA té un extrem 5' o 3' (o ambdós) que no s'alinia a la seqüència genòmica
les alineacions establertes i la traducció a proteïna si s'escau

Instruccions d'ús

Per tal d'utilitzar l'SPIDEY des del servidor Persy cal:

En primer lloc, cal descarregar i instal.lar el programa:

Entrar a la pàgina http://www.ncbi.nlm.nih.gov/spidey

Clicar la opció Spidey executables de la barra de l'esquerra i escollir el spidey.linux.gz

Un cop guardat al disc dur s'ha de descomprimir mitjançant la comanda:

    $ gunzip spidey.linux.gz

Després de donar-li els permisos pertinents ja estarà a punt per fer-lo servir.

Els inputs del programa que caldrà introduir han de tenir format FASTA o GI/Accession i són dos: la seqüència genòmica que es vol fer servir de motlle i la o les seqüències de mRNA que es vol llençar contra ella.

L'output el treu també en format FASTA in no és un paràmetre que es pugui modificar.

La comanda d'execució és:

    $ ./spideylinux -i input genòmic -m input mRNA

Es pot per un redireccionament per enviar els reslutats en un fitxer. Si no, l'output te'l treu en dos fitxers:

STDOUT: sumari

spidey.aln: alineaments

L'Spidey disposa d'altres paràmetres modificables per variar les característiques del BLAST o de la sortida de l'output. Si es volen consultar es pot mirar tot utilitzant la comanda:

    $ ./spidey.linux

Per veure els nostres resultats clica aquí

De totes maneres, per tal de poder executar posteriorment el programa gff2ps, és condició indispensable que tots els inputs (és a dir, els outputs dels diferents programes que s'han executat fins ara) estiguin en format gff. L'Spidey és l'únic dels programes utilitzats que no té la opció de treure l'output en format gff. Per tant, un pas previ a la utilització del gff2ps, serà passar el format de sortida d'Spidey a format gff.

El format gff és un format estàndar per descriure anotacions, consistent en una taula que conté les següents columnes:

Identificador (id.gff)
Programa (creat amb l'editor de textos emacs)
Exó (exo.gff)
Posició d'inici (posinici.gff)
Posició de final (posfinal.gff)
Score (score.gff)
Strand (strand.gff)
Frame (creat amb l'editor de textos emacs -simbolitzat amb un "." perquè l'Spidey no l'especifica-)
Segon identificador (creat amb l'editor de textos emacs -simbolitzat amb un "." perquè l'Spidey no l'especifica-)

Per passar els resultats es pot fer de moltes maneres, des d'un programa escirt en Perl, o utilitzant les comandes "GAWK" o de la següent manera des de Unix:

Partint del següent fragment que ens interessa de l'output d'Spidey, al que s'ha anomenat results.gff:

--SPIDEY version 1.40--
Genomic: lcl|SCAF14367 No definition line found, 444931 bp
mRNA: lcl|FD0ADA46CC04.contig No definition line found, 1201 bp
Strand: minus
Number of exons: 14
Exon 1(-): 207037-207057 (gen)  1-21 (mRNA)  id 100.0% mismatches 0 gaps 0  splice site (d  a): 1  0
Exon 2(-): 205632-205799 (gen)  22-190 (mRNA)  id 99.4% mismatches 1 gaps 1  splice site (d  a): 1  1
Exon 3(-): 204388-204451 (gen)  191-254 (mRNA)  id 100.0% mismatches 0 gaps 0  splice site (d  a): 1  1
Exon 4(-): 204132-204181 (gen)  255-304 (mRNA)  id 100.0% mismatches 0 gaps 0  splice site (d  a): 1  1
Exon 5(-): 203568-204054 (gen)  305-791 (mRNA)  id 96.9% mismatches 15 gaps 0  splice site (d  a): 0  1

s'han aplicat les següents comandes:


    $ egrep 'Genomic' results.gff | cut -d ' ' -f '2' > id.gff
    $ egrep 'Exon' results.gff | cut -d ' ' -f '1' > exo.gff
    $ egrep 'Exon' results.gff | cut -d ' ' -f '3' > posicions.gff
    $ cut -d ' ' -f '1' posicions.gff > posinici.gff
    $ cut -d ' ' -f '2' posicions.gff > posfinal.gff
    $ egrep 'Exon' results.gff | cut -d ' ' -f '10' > score.gff
    $ egrep 'Exon' results.gff | cut -c '8' > strand.gff

La resta de columnes s'han afegit a mà mitjançant l'editor de textos emacs. S'ha de comentar que utilitzant el cut per crear l'identificador, només n'extreu un i per tant els altres també s'han d'escriure amb l'emacs.

Els outputs de les comandes anteriors s'hauran de fusionar en un mateix arxiu mitjançant la comanda:


    $ paste id.gff programa.gff exo.gff posinici.gff posfinal.gff score.gff strand.gff buit.gff > spidey.gff

I, si fem un

 $ more spidey.gff

sortirà el següent output que ja servirà per passar-lo pel gff2ps:


SCAF14367       spidey  Exon    207037  207057  100.0   -       .       .
SCAF14367       spidey  Exon    205632  205799  99.4    -       .       .
SCAF14367       spidey  Exon    204388  204451  100.0   -       .       .
SCAF14367       spidey  Exon    204132  204181  100.0   -       .       .
SCAF14367       spidey  Exon    203568  204054  96.9    -       .       .

SECISearch

El SECISearch 2.0, és un programa que té servidor online, de manera que es pot utilitzar directament des de la web.

Es tracta d'un programa per identificar candidats a estructures SECIS dins d'una seqüència nucleotídica que se li introdueix. Es basa en tractar d'identificar possibles estructures secundàries dins la seqüència, així com la seva energia lliure associada.

El programa conté tres moduls:

PatScan: programa basat en la cerca de patrons, en aquest cas de SECIS, en la seqüència introduïda
RNAfold: programa que fa una avaluació de l'energia termodinàmica de l'estructura predita
RNAnice: programa per visualitzar l'estructura predita

Instruccions d'ús

En primer lloc s'han buscat elements SECIS en cadascuna de les seqüències dels mRNAs i ESTs de partida, de la següent manera:

Entrar la seqüència a la finestreta

Modificar la opció establerta per defecte per l'opció canonical and non-canonical

Prémer el botó Submit

El programa realitza la seva cerca i mostra per pantalla:

La seqüència corresponent al SECIS
La energia lliure associada
L'estructura secundària que adopta el SECIS

Quan es tracta d'anotar un gen, sempre és interessant inferir la localització dels resultats obtinguts a partir dels cDNAs o ESTs dins la seqüènica genòmica.

Un cop s'ha esbrinat quins ESTs o cDNA contenen el SECIS, es fa un BLASTN contra el genoma, per tal de localitzar-lo dins d'aquest.

Es realitza el BLASTN des del servidor Persy utilitzant les següents comandes:

     formatdb -p F -i input -n basededades

Aquesta comanda, crea una base de dades contra la qual farà el BLASTN, a partir de la seqüència (input) que se li especifica. El paràmetre -p defineix el tipus de biopolímer que s'introdueix (aminoàcids -default- o nucleòtids -F-).

Tot seguit es procedeix a fer el BLASTN, amb la següent comanda:

     blastall -p blastn -i input -d basededades -o output

Per veure els nostres resultats clica aquí

Gff2ps

Aquest programa permet fer gràfics dels postscript-outputs provinents de fitxers amb format gff. Serveix per visualitzar anotacions de seqüències genòmiques.

Com a input agafa una seqüència genòmica en format gff i produeix un output en postscript visual.

Cal dir que el format gff (General Feature Format) és un dels formats més utilitzats quan es treballa amb anotació. Es pot trobar m�s informació a la pàgina: http://www.sanger.ac.uk/Software/format/GFF/GFF_Spec.shtml

A partir del postscript, ja es podrà veure la imatge.

A diferència dels altres programes utilitzats, aquest no fa cap modificació a la informació que rep. Només transforma les dades per tal que puguin ser convertides a imatge.

Una de les opcions més útils d'aquesta eina, és que es pot passar els outputs en gff obtinugts de diferents programes en un input i crearà un sol gràfic distingint els resultats de cada lloc. Això servirà per COMPARAR els resultats extrets pels altres mètodes informàtics.

Instruccions d'ús

Per tal d'utilitzar el programa gff2ps a través del Servidor Persy, primer de tot cal baixar-lo i instal.lar-lo al disc dur. Els executables de gff2ps es poden buscar a la pàgina: http://genome.imim.es/software/gfftools/GFF2PS.html

Dins l'apartat de Contents, clicar la opció DOWNLOADING gff2ps. Descarregar el gff2ps program i guardar-lo al disc dur.

Per descomprimir-lo i compil.lar-lo cal executar les següents comandes:

$ gunzip *.tar.gz | tar -xvf

Un cop fet això, ja està a punt d'utilització.

La comanda d'execució és:

$ gff2ps paràmetres -- input.gff > output.ps

Per passar els resultats de més d'un programa, abans d'utilitzar la comanda d'execució, es poden unificar els outputs en un sol fitxer utilitzant la comanda:

$cat output1 output2 output3 output4 (...) > input.gff

Per tal de visualitzar la imatge, primer cal convertir l'output en format d'imatge jpg:

$ convert -rotate 90 output.ps output.jpg

Es podrà obrir, utilitzant un programa que visualitza imatges binàries (formats jpg, jpeg...) com l'Electric Eyes cridant-lo així:

$ ee output.jpg &

Hi ha molts paràmetres que es poden modificar per tal de millorar la visualització de la imatge. Els aquí utilitzats han sigut els:

-S: aplica un zoom a partir del nucleòtid indicat
-E: tanca el zoom a partir del nucleòtid indicat
-O: elimina la data d'execució
-o: elimina l'hora d'execució
-l: elimina el número de pàgina
-T: permet posar un títol al gràfic
-t: permet posar un subtítol al gràfic
-w: no contempla l'strand en forward (el significat d'aquest paràmetre i la seva utilitat en aquest cas es discutirà a l'apartat de Discussió)

S'ha de dir que es recomana la utilització de la versió gff2ps.v98e del programa, ja que s'ha vist que versions anteriors donen errors a l'executar paràmetres com el -S o el -E.

Més paràmetres modificables del programa es poden trobar anant a:

$ ./gff2ps -h

És important reiterar que per tal d'aconseguir el bon funcionament dels programes explicats fins ara és imprescindible especificar ve les rutes per extreure els fitxers i les rutes per executar el programa des del lloc adequat.

Tetraodon nigroviridis

NOM COMÚ

Peix globus verd (o peix bufador)

NOM CIENTÍFIC

Tetraodon nigroviridis

MIDA CORPORAL

Fins a 15cm en l'hàbitat natural, però molt més petit si és criat en aquaris

HÀBITAT

Rius i estuaris d'Indonèsia, Malàsia i Índia. Aigües a temperatures entre 24 i 28 graus

ALIMENTACIÓ

Larves de mosquit, cucs, cargols, escopinyes i musclos

REPRODUCCIÓ

Desconeguda

GENOMA

Mida: 350 Mb (posseeix el genoma de vertebrat més petit dels coneguts)

Quantitat de material genètic per cèl.lula: 0.7 pg

Número de cromosomes: 21 cromosomes

Tamany dels cromosomes: oscil.len entre 11 i 30 Mb

IMPORTÀNCIA PER LA INVESTIGACIÓ

Com a vertebrat que és, el seu genoma és molt similar als d'altres vertebrats coneguts, inclòs el d'home o de ratolí. S'ha observat (Brenner et al, 1993) que el genoma d'aquest peix, així com d'altres de la seva mateixa família, conté molt poca quantitat d'ADN repetitiu. Això fa d'aquest peix una bona eina per estudiar genomes de vertebrats ja que aproximadament la mateixa informació està continguda en un tamany 8 vegades menor.