Materials i mètodes


  • Seqüències utilitzades
  • Programes utilitzats
  • Tetraodon nigroviridis
  • Genewise
  • Geneid
  • Spidey
  • SECISearch
  • Gff2ps


  • Seqüències utilitzades

    Per demostrar com es fa per anotar un gen i per posar a la pràctica tot el que s'ha comentat fins ara, s'intentarà, a partir d'una seqüència que prové del genoma del Tetraodon nigroviridis, buscar i trobar un gen que se sap que s'hi troba.

    Aquest gen codifica per una selenoproteïna i per tant, també es posaran de manifest els problemes que comporta treballar amb la presència d'un codó UAG in-frame dins la seqüència.

    De la informació de que es disposa és:

    La proteïna ortòloga en home correspon a la proteïna 15 kDa selenoprotein isoform 1 precursor i es troba anotada sota aquesta referència: NP_004252.2

    És precisament gràcies al nom i a la presència d'aquesta proteïna humana que al gen equivalent en T.nigroviridis s'ha anomenat gen 15kDa.

    Per tal d'anotar correctament el gen 15kDa es procedirà a la utilització de diferents programes informàtics. Cada un d'ells servirà per extreure de la seqüència diferent informació que al final es compilarà per donar les conclusions.

    A continuació es mostra un breu resum de cada un dels programes utilitzats, així com les comandes usades des del servidor de Persy per aconseguir els resultats esperats. L'ordre en que apareixen correspon únicament al seguit en aquest cas, però no és determinant a l'hora d'anotar un gen.

    S'ha de dir també, que les que es mostren seguidament no són ni les úniques ni les millors eines que es poden utilitzar quan es procedeix a anotar però serviran d'exemple per veure els passos que cal seguir.




    Programes utilitzats

    GENEWISE

    El Wise2 és un paquet informàtic basat en la comparació de biopolímers, generalment seqüències genòmiques i seqüències proteiques. Cal destacar, doncs, el fet que els dos inputs contenen simbologia diferent: per una banda hi haurà una seqüència nucleotídica i per l'altra una seqüència aminoacídica. Això no suposa cap problema de treball del GENEWISE i per a nosaltres suposa una molt bona eina. A part, permet l'existència d'introns i els errors de frameshifting en les seqüències.

    Treballa també amb mètodes d'alineament que poden ser globals o locals, en funció del que es vulgui buscar. És un paràmetre que es pot variar. Altres que també es poden canviar són les senyals dels splice sites, la utilització o no dels intron bias així com l'organisme amb el què s'està treballant. Per defecte, sinó, utilitza els paràmetres d'home.

    Un aspecte interessant del GENEWISE és que permet alinear dos seqüències provinents d'espècies diferents. De tal manera que podem alinear una proteïna d'una espècie contra una seqüència genòmica d'una segona espècie. Això és molt útil per buscar proteïnes ortòlegs entre dues espècies, la seqüència de les quals estigui parcialment conservada.

    Instruccions d'ús

    Per tal d'utilitzar el GENEWISE des del servidor Persy cal:

    En primer lloc, cal descarregar i instal.lar el programa:

    Anar a la pàgina http://www.ebi.ac.uk/Wise2/

    Clicar la opció Download Software de la barra de l'esquerra i escollir el wise2.2.0.tar.gz

    Un cop s'ha guardat al disc dur, s'ha de descomprimir i desempaquetar mitjançant la comanda:

        $ gunzip wise2.2.0.tar.gz | tar -xvf 

    Després de donar-li els permisos pertinents només faltarà instal.lar-lo.

    S'haurà creat un directori anomenat Wise/ que és a on es troben tots els documents README amb la informació del programa, les llicències i els passos per instal.lar-lo.

    Per instal.lar-lo cal anar al subdirectori src i introduir la comanda:

        $ cd src

        $ make all

    Al final de l'execució ha de sortir una nota que posi que la instal.lació s'ha realitzat correctament. Després d'això, el genewise està a punt per ser utilitzat.

    Els inputs del programa que cal introduir poden estar en qualsevol format, tot i que certs formats poden tenir caràcters amagats que dificultin el BLAST. Es recomenable doncs, introduir els inputs en format FASTA.

    En aquest cas, els inputs com ja s'ha comentat, també són dos:

    L'output dels alineaments el treu, si així s'especifica a la comanda d'execució,amb l'anomenat pretty alignment que mostra els alineaments i especifica el triplet de nucleòtids que codifiquen per l'aminoàcid corresponent al què s'ha alineat. Si hi ha la presència d'un intró enmig de la proteïna, mostrarà les posicions intròniques així com també si el codó queda o no partit per l'intró.

    Hi ha la possibilitat d'especificar el format gff per l'output.

    La comanda d'execució utilitzada en el cas de l'exemple és:

        $ ./genewise -pretty -trans -cdna -gff -trev input proteïna input genòmic
    A on els paràmetres especificats signifiquen:


    Si es vol, es pot redireccionar els resultats a un fitxer determinat, afegint al final de la comanda el símbol > nomdelfitxer .

    És important escriure els paths dels fitxers d'input correctament per tal que el programa els pugui recuperar bé.

    Altres paràmetres que poden ser modificats es poden trobar utilitzant la comanda:

        $ ./genewise  

    Per veure els nostres resultats clica aquí


    GENEID

    Anomenat "predictor de gens", aquest programa es dedica a predir gens dins de seqüències genòmiques introduïdes. Per dur-ho a terme realitza aquesta sèrie de passos seqüencials:
    1. Predir els splice sites i els codons d'inici i d'stop.
    2. Atorgar un score a les diferents senyals predites. Per fer-ho utilitza els Position Weight Arrays (PWA), matrius de pesos.
    3. Construcció dels exons i càlcul del seu score. L'score dels exons es calcula com la suma de l'score de les senyals que l'integren.
    4. Ensemblatge de l'estructura gènica a partir dels exons predits. Per escollir els exons que formaran l'estructura gènica, es maximitza la suma dels scores dels exons.

    A diferència dels altres programes vistos fins ara, aquest només treballa sobre un input, la seqüència genòmica d'interès.

    S'ha de pensar però, que el programa treballa amb uns paràmetres per defecte si no s'especifica el contrari. Aquests paràmetres són específics de cada espècie. Les matrius de pesos i els tipus de senyals variaran en funció de l'espècie. Per solventar-ho, GENEID té un subdirectori amb els paràmetres d'unes quantes espècies descrits, de tal manera que a les comandes d'execució només s'ha d'indicar quin es necessita. La versió del GENEID geneid v 1.1, que és la que s'ha utilitzat en aquest cas, conté els paràmetres per les següents espècies:


    Instruccions d'ús

    Per tal d'utilitzar el GENEID des del servidor Persy cal:

    En primer lloc, cal descarregar i instal.lar el programa:

    Entrar a la pàgina http://genome.imim.es/software/geneid Clicar la opció Source code distribution i escollir el DOWNLOAD del

    geneid v 1.1
    Un cop guardat en el teu disc dur s'ha de descomprimir, compilar i instal.lar seguint les següents comandes:

    $ gunzip geneid.tar.gz | tar -xvf
    $ cd geneid
    $ make
    
    Entrant a
    bin/geneid -h
    es pot veure si el programa ha estat ben intal.lat. També permet veure les opcions de les que disposa. Després de donar-li els permisos adients, ja estarà a punt per ser executat. La comanda d'execució és:

    $ ./bin/geneid -G input genòmic
    

    a on la -G dictamina la sortida de l'output en format gff. Si es vulgués cambiar els paràmetres a utilitzar s'ha d'indicar així:

    $ ./bin/geneid -G -P geneidparams/tetraodon.param.3.v1.1 input genòmic 
    

    en aquest cas s'estaria escollint els paràmetres del Tetraodon nigroviridis

    L'input que necessita el GENEID es recomana que estigui en format gff i l'output pot ser:

    Per veure els nostres resultats clica aquí


    SPIDEY

    L'Spidey serveix per alinear una seqüència genòmica amb diferents mRNAs que provinguin de la mateixa.

    Servirà doncs, per predir la localització genòmica dels diferents exons que composen l'estructura dels mRNA després del seu processament post-transcripcional.

    S'ha de pensar que els mRNAs no són res més que els trossos codificants de la seqüència genòmica, més parts que ajuden a regular el procés de traducció (com els UTRs amb els elements SECIS). De totes maneres, es parla d'mRNAs tot i que també són vàlids els alineaments amb EST. Aquests tot i ser similars als mRNA, s'aconsegueixen per seqüenciació parcial d'mRNAs.

    Per aconseguir-ho treballa amb dos mètodes d'alineament local, el BLAST i el Dot View. Gràcies a ser precisament locals, no es prioritzen introns més o menys curts ni presenta restriccions en la llargada intrònica.

    Els alineaments de BLAST són ordenats pels scores i llavors assignats a una finestra mitjançant una funció repetitiva.

    Un cop acabat amb tots els possibles alineaments que troba, les finestres són examinades exhaustivament per treure per l'output la següent informació:

    Instruccions d'ús

    Per tal d'utilitzar l'SPIDEY des del servidor Persy cal:

    En primer lloc, cal descarregar i instal.lar el programa:

    Entrar a la pàgina http://www.ncbi.nlm.nih.gov/spidey

    Clicar la opció Spidey executables de la barra de l'esquerra i escollir el spidey.linux.gz

    Un cop guardat al disc dur s'ha de descomprimir mitjançant la comanda:

        $ gunzip spidey.linux.gz   

    Després de donar-li els permisos pertinents ja estarà a punt per fer-lo servir.

    Els inputs del programa que caldrà introduir han de tenir format FASTA o GI/Accession i són dos: la seqüència genòmica que es vol fer servir de motlle i la o les seqüències de mRNA que es vol llençar contra ella.

    L'output el treu també en format FASTA in no és un paràmetre que es pugui modificar.

    La comanda d'execució és:

        $ ./spideylinux -i input genòmic -m input mRNA 

    Es pot per un redireccionament per enviar els reslutats en un fitxer. Si no, l'output te'l treu en dos fitxers:

  • STDOUT: sumari
  • spidey.aln: alineaments

    L'Spidey disposa d'altres paràmetres modificables per variar les característiques del BLAST o de la sortida de l'output. Si es volen consultar es pot mirar tot utilitzant la comanda:

        $ ./spidey.linux 

    Per veure els nostres resultats clica aquí


    De totes maneres, per tal de poder executar posteriorment el programa gff2ps, és condició indispensable que tots els inputs (és a dir, els outputs dels diferents programes que s'han executat fins ara) estiguin en format gff. L'Spidey és l'únic dels programes utilitzats que no té la opció de treure l'output en format gff. Per tant, un pas previ a la utilització del gff2ps, serà passar el format de sortida d'Spidey a format gff.

    El format gff és un format estàndar per descriure anotacions, consistent en una taula que conté les següents columnes:

    Per passar els resultats es pot fer de moltes maneres, des d'un programa escirt en Perl, o utilitzant les comandes "GAWK" o de la següent manera des de Unix:

    Partint del següent fragment que ens interessa de l'output d'Spidey, al que s'ha anomenat results.gff:

    --SPIDEY version 1.40--
    Genomic: lcl|SCAF14367 No definition line found, 444931 bp
    mRNA: lcl|FD0ADA46CC04.contig No definition line found, 1201 bp
    Strand: minus
    Number of exons: 14
    Exon 1(-): 207037-207057 (gen)  1-21 (mRNA)  id 100.0% mismatches 0 gaps 0  splice site (d  a): 1  0
    Exon 2(-): 205632-205799 (gen)  22-190 (mRNA)  id 99.4% mismatches 1 gaps 1  splice site (d  a): 1  1
    Exon 3(-): 204388-204451 (gen)  191-254 (mRNA)  id 100.0% mismatches 0 gaps 0  splice site (d  a): 1  1
    Exon 4(-): 204132-204181 (gen)  255-304 (mRNA)  id 100.0% mismatches 0 gaps 0  splice site (d  a): 1  1
    Exon 5(-): 203568-204054 (gen)  305-791 (mRNA)  id 96.9% mismatches 15 gaps 0  splice site (d  a): 0  1
    

    s'han aplicat les següents comandes:

    
        $ egrep 'Genomic' results.gff | cut -d ' ' -f '2' > id.gff
        $ egrep 'Exon' results.gff | cut -d ' ' -f '1' > exo.gff
        $ egrep 'Exon' results.gff | cut -d ' ' -f '3' > posicions.gff
        $ cut -d ' ' -f '1' posicions.gff > posinici.gff
        $ cut -d ' ' -f '2' posicions.gff > posfinal.gff
        $ egrep 'Exon' results.gff | cut -d ' ' -f '10' > score.gff
        $ egrep 'Exon' results.gff | cut -c '8' > strand.gff
    

    La resta de columnes s'han afegit a mà mitjançant l'editor de textos emacs. S'ha de comentar que utilitzant el cut per crear l'identificador, només n'extreu un i per tant els altres també s'han d'escriure amb l'emacs.

    Els outputs de les comandes anteriors s'hauran de fusionar en un mateix arxiu mitjançant la comanda:

    
        $ paste id.gff programa.gff exo.gff posinici.gff posfinal.gff score.gff strand.gff buit.gff > spidey.gff
    
    I, si fem un
     $ more spidey.gff 
    sortirà el següent output que ja servirà per passar-lo pel gff2ps:
    
    SCAF14367       spidey  Exon    207037  207057  100.0   -       .       .
    SCAF14367       spidey  Exon    205632  205799  99.4    -       .       .
    SCAF14367       spidey  Exon    204388  204451  100.0   -       .       .
    SCAF14367       spidey  Exon    204132  204181  100.0   -       .       .
    SCAF14367       spidey  Exon    203568  204054  96.9    -       .       .
    



    SECISearch

    El SECISearch 2.0, és un programa que té servidor online, de manera que es pot utilitzar directament des de la web.

    Es tracta d'un programa per identificar candidats a estructures SECIS dins d'una seqüència nucleotídica que se li introdueix. Es basa en tractar d'identificar possibles estructures secundàries dins la seqüència, així com la seva energia lliure associada.

    El programa conté tres moduls:


    Instruccions d'ús

    En primer lloc s'han buscat elements SECIS en cadascuna de les seqüències dels mRNAs i ESTs de partida, de la següent manera:

    Entrar la seqüència a la finestreta

    Modificar la opció establerta per defecte per l'opció canonical and non-canonical

    Prémer el botó Submit

    El programa realitza la seva cerca i mostra per pantalla:


    Quan es tracta d'anotar un gen, sempre és interessant inferir la localització dels resultats obtinguts a partir dels cDNAs o ESTs dins la seqüènica genòmica.

    Un cop s'ha esbrinat quins ESTs o cDNA contenen el SECIS, es fa un BLASTN contra el genoma, per tal de localitzar-lo dins d'aquest.

    Es realitza el BLASTN des del servidor Persy utilitzant les següents comandes:

         formatdb -p F -i input -n basededades 

    Aquesta comanda, crea una base de dades contra la qual farà el BLASTN, a partir de la seqüència (input) que se li especifica. El paràmetre -p defineix el tipus de biopolímer que s'introdueix (aminoàcids -default- o nucleòtids -F-).

    Tot seguit es procedeix a fer el BLASTN, amb la següent comanda:

         blastall -p blastn -i input -d basededades -o output 

    Per veure els nostres resultats clica aquí



    Gff2ps

    Aquest programa permet fer gràfics dels postscript-outputs provinents de fitxers amb format gff. Serveix per visualitzar anotacions de seqüències genòmiques.

    Com a input agafa una seqüència genòmica en format gff i produeix un output en postscript visual.

    Cal dir que el format gff (General Feature Format) és un dels formats més utilitzats quan es treballa amb anotació. Es pot trobar més informació a la pàgina: http://www.sanger.ac.uk/Software/format/GFF/GFF_Spec.shtml

    A partir del postscript, ja es podrà veure la imatge.

    A diferència dels altres programes utilitzats, aquest no fa cap modificació a la informació que rep. Només transforma les dades per tal que puguin ser convertides a imatge.

    Una de les opcions més útils d'aquesta eina, és que es pot passar els outputs en gff obtinugts de diferents programes en un input i crearà un sol gràfic distingint els resultats de cada lloc. Això servirà per COMPARAR els resultats extrets pels altres mètodes informàtics.


    Instruccions d'ús

    Per tal d'utilitzar el programa gff2ps a través del Servidor Persy, primer de tot cal baixar-lo i instal.lar-lo al disc dur. Els executables de gff2ps es poden buscar a la pàgina: http://genome.imim.es/software/gfftools/GFF2PS.html

    Dins l'apartat de Contents, clicar la opció DOWNLOADING gff2ps. Descarregar el gff2ps program i guardar-lo al disc dur.

    Per descomprimir-lo i compil.lar-lo cal executar les següents comandes:

    $ gunzip *.tar.gz | tar -xvf

    Un cop fet això, ja està a punt d'utilització.

    La comanda d'execució és:

    $ gff2ps paràmetres -- input.gff > output.ps

    Per passar els resultats de més d'un programa, abans d'utilitzar la comanda d'execució, es poden unificar els outputs en un sol fitxer utilitzant la comanda:

    $cat output1 output2 output3 output4 (...) > input.gff

    Per tal de visualitzar la imatge, primer cal convertir l'output en format d'imatge jpg:

    $ convert -rotate 90 output.ps output.jpg

    Es podrà obrir, utilitzant un programa que visualitza imatges binàries (formats jpg, jpeg...) com l'Electric Eyes cridant-lo així:

    $ ee output.jpg & 


    Hi ha molts paràmetres que es poden modificar per tal de millorar la visualització de la imatge. Els aquí utilitzats han sigut els:

    S'ha de dir que es recomana la utilització de la versió gff2ps.v98e del programa, ja que s'ha vist que versions anteriors donen errors a l'executar paràmetres com el -S o el -E.

    Més paràmetres modificables del programa es poden trobar anant a:

    $ ./gff2ps -h


    És important reiterar que per tal d'aconseguir el bon funcionament dels programes explicats fins ara és imprescindible especificar ve les rutes per extreure els fitxers i les rutes per executar el programa des del lloc adequat.




    Tetraodon nigroviridis

  • NOM COMÚ

    Peix globus verd (o peix bufador)


  • NOM CIENTÍFIC

    Tetraodon nigroviridis


  • MIDA CORPORAL

    Fins a 15cm en l'hàbitat natural, però molt més petit si és criat en aquaris


  • HÀBITAT

    Rius i estuaris d'Indonèsia, Malàsia i Índia. Aigües a temperatures entre 24 i 28 graus


  • ALIMENTACIÓ

    Larves de mosquit, cucs, cargols, escopinyes i musclos


  • REPRODUCCIÓ

    Desconeguda


  • GENOMA

    Mida: 350 Mb (posseeix el genoma de vertebrat més petit dels coneguts)

    Quantitat de material genètic per cèl.lula: 0.7 pg

    Número de cromosomes: 21 cromosomes

    Tamany dels cromosomes: oscil.len entre 11 i 30 Mb


  • IMPORTÀNCIA PER LA INVESTIGACIÓ

    Com a vertebrat que és, el seu genoma és molt similar als d'altres vertebrats coneguts, inclòs el d'home o de ratolí. S'ha observat (Brenner et al, 1993) que el genoma d'aquest peix, així com d'altres de la seva mateixa família, conté molt poca quantitat d'ADN repetitiu. Això fa d'aquest peix una bona eina per estudiar genomes de vertebrats ja que aproximadament la mateixa informació està continguda en un tamany 8 vegades menor.