Automatització i programes

Per tal d'automatitzar i agilitzar el procés d'anotació dels genomes, hem creat uns sèrie de programes en llenguatge bash i en llenguatge perl. Concretament hem creat 3 programes bash i 1 programes perl:

  • BLAST.bash és un programa que produeix alineaments locals de seqüències tipus tBLASTn de forma automàtica. Permet comparar un conjunt de seqüències proteiques dins de la carpeta querys contra diferents bases de dades de nucelòtids previament definides. En el nostre contra tots els genomes dels organismes protistes del directori: /cursos/BI/genomes/protists/2012

  • AMRAgenomeannotation.bash és un programa que automatitza tot el protocol descrit a Materials i Mètodes permetent a l'usuari manipular els paràmetres manualment en els punts crítics evitant possibles errors del procés d'automatització. Fa tBLASTn, fastaindex, fastafetch, fastasubseq, exonerate, genewise, t-coffee d'ambdues prediccions i cerca d'homòlegs al conjunt de proteïnes no redundants de NCBI. Creant tots els arxius i ordenant-los en un sistema de carpetes molt còmode. A més a més esta adaptat per a qualsevol query i qualsevol genoma protista dels anys següents sense necesitat de manipular el codi del programa.

  • GFFtoFA.pl és un petit script en llenguatge perl, necessari per al correcte funcionament del programa AMRAgenomeannotation.bash, permet l'extracció automàtica de la seqüència d'aminoàcids de l'arixu .gff generat per genewise.

  • tRNAscan.bash és un programa que permet automatitzar el procés d'escanejat del TRNAscan-SE. Primer s'especifiquen els organismes en un for, i el programa els va escanejant un a un creant fitxers de sortida que després analitzarem manualment.

    Per aconseguir tots els programes, clica aquí.

    BLAST.bash

    Aquest programa permet fer tBLASTn de forma automàtica de cada proteina que estigui dins la carpeta querys contra tots els genomes protistes del directori: /cursos/BI/genomes/protists/2012.

    Requereix:

    1. El programa blast.bash.
    2. Una carpeta al mateix directori anomenada "querys". En aquest directori és on tindrem les nostres querys o proteïnes en format .fa.
    3. Tenir instalat a l'ordinador el software NCBI Blast.

    Funcionament bàsic:
    El programa en primer lloc fa una llista amb tots els noms de les nostres querys sense el .fa. I desprès fa dos bucles for per a fer tots els tBLASTn de les possibles combinacions entre proteïnes i genomes. Les possibles modificacions del codi per adaptar-lo a nous genomes s'indiquen al codi descrit més avall.

    Execució:

    1. Donar permissos al programa amb la comanda: chmod u+x blast.bash.
    2. Executar el programa al terminal amb la comanda: ./blast.bash

    Codi:

    #!/bin/bash
    
    ### Script hecho por el grupo 4c de 4º de Biologia Humana del curso 2011-2012 de la Universitat Pompeu Fabra, para la asignatura de Bioinformatica.
    
    export PATH=/cursos/BI/bin/ncbiblast/bin:$PATH 
    cp /cursos/BI/bin/ncbiblast/.ncbirc ~/ 
    
    ### Aixo es per a detectar quines proteines hi ha a la carpeta querys. Agafa el nom dels arxius, els treu el .fa i els ordena en una llista per a poder fer servir la comanda for.
    
    for query_fa in ./querys/*; do {
    query=`basename $query_fa`
    nomproteina=${query%.fa}
    llistaquerys=$llistaquerys" $nomproteina"
    } done
    mkdir ./blasts
    
    ### Aqui comença el BLAST: dos bucles for per a fer les combinaciones entre proteines de la llistaquerys i els genomes anotats a sota manualment. Per a modificacions futures de anys vinents, heu de substituir els vostres organismes de la comanda (1) i asseguar-vos de canviar l'any en el punt (2) on posa 2012.
    
    for nomproteina in $llistaquerys; do {
    #(1)#
    for genome in A.laibachii_Nc14 A.rara C.fasciculata D.discoideum_AX4 D.fasciculatum F.cylindrus G.niphandrodes I.multifiliis_strain_G5 L.donovani_BPK282A1 L.tarentolae P.capsici P.polycephalum S.arctica T.congolense; do {
    echo "fent $nomproteina en $genome"
    #(2)#
    blastall -p tblastn -i ./querys/$nomproteina.fa -d /cursos/BI/genomes/protists/2012/$genome/genome.fa -o blasts/$nomproteina.$genome.txt
                                          } done
    echo fet
    } done 

    AMRAgenomeannotation.bash

    Aquest programa permet anotar una a una cada proteina de la carpeta "query" contra el genoma que volguem. Inclou les comandes per fer tBLASTn, fastaindex, fastafetch, fastasubseq, exonerate, genewise, t-coffee d'ambdues prediccions i cerca d'homòlegs al conjunt de proteïnes no redundants de NCBI de forma automàtica. Permet a l'usuari escollir quines proteines vol, quins organismes, modificar manualment els arxius durant el funcionament del programa, valorar quins contigs es volen estudiar,... i tots els arxius generats els ordena en un còmode sistema de carpetes. És tracta d'un programa semiautomàtic però agilitza enormement el procés d'obtenció de dades.

    Requereix:

    1. El programa AMRAgenomeannotation.bash.
    2. El programa fastaseqfromGFF.pl.
    3. El programa GFFtoFA.pl.
    4. Una carpeta al mateix directori anomenada "query". En aquest directori és on tindrem les nostres querys o proteïnes en format .fa.
    5. Tenir instalat a l'ordinador el software NCBI Blast.
    6. Tenir instalat a l'ordinador el software exonerate.
    7. Tenir instalat a l'ordinador el software genewise.

    Funcionament bàsic:
    Gràcies a les comandes -echo i -read el programa permet que l'usuari indiqui manualment que l'interesa estudiar i manipular els arxius. En primer lloc el programa ens pregunta quina query volem estudiar i ens mostra per pantalla les nostres proteïnes dins la carpeta "query", i ens demana que escrivim la query. Després ens pregunta per quin any i quin organisme volem estudiar i ens deixa introduir les dades. Si tot està correcte ens genera i mostra un more del tBLASTn per a que identifiquem el nostre hit, pulsem Q, i fa fastaindex i fastafetch i ens demana que escrivim el contig o regió on hem trobat el nostre hit, la posició d'inici (agafar menys 10kb) i la llargaria que direm que són 20000, per a realitzar el fastasubseq. Ens mostra la regió que ha agafat, pulsem Q. A continuació ens demana si volem fer exonerate, i podem escriure SI, i el programa s'atura per a deixar-nos manipular la nostra query, canviant la U per la X per a que exonerate no doni error. A continuació mostra l'arixu .gff, i ens dona l'opció de canviar-ho. Si no ens interesa continuem amb Enter. Fa el fastaseqfromGFF i el fastatranslate i el programa s'atura per a que modifiquem manualment la predicció de la proteïna i agafem la pauta de lectura correcta, aixi com variar la * per una X o la X de la query per la U. Posteriorment fa t-coffee i pregunta si volem fer blastP de la nostra predicció contra el conjunt de proteines no redundants de NCBI. Ara ens torna a preguntar si volem fer Genewise i fa també el t-coffee i blastp contra NCBI de la nova predicció.Trobareu els pasos més detallats al codi del programa descrit més avall, així com instruccions al terminal durant l'execució del programa. Per a més informació sobre el funcionament aquí un cas real.

    Execució:

    1. Donar permissos al programa amb la comanda: chmod u+x AMRAgenomeannotation.bash
    2. Executar el programa al terminal amb la comanda: ./AMRAgenomeannotation.bash

    Codi:

    #!/bin/bash
    
    # Script hecho por el grupo 4c de 4o de Biologia Humana del curso 2011-2012 de la Universitat Pompeu Fabra, para la asignatura de Bioinformatica.
    ## Antes de comenzar, se tiene que crear una carpeta "query" donde tengamos las secuencias que desamos analizar en los genomas.
    ## Los fallos del script mas usuales son equivocarse al introducir los datos o no descargar los programas adjuntos: GFFtoFA.pl y fastaseqfromGFF.pl.
    
    ### Escogiendo la secuencia
    
    echo -e "\033[1mBuenos dias usuario! Hacemos unos blast? Te acordaste de crear la carpeta query?\033[0m"
    echo
    echo -e "\033[1mQue query quieres mirar?\033[0m"
    ls ./query
    echo
    echo -en "\033[1mIntroduce el nombre exacto de la query:  \033[0m"
    read query
    echo
    
    mkdir ./$query
    
    ### Escogiendo el organismo
    
    echo -en "\033[1mLos organismos que quieres mirar, de que year son? \033[0m"
    read year
    echo
    ls /cursos/BI/genomes/protists/$year
    
    echo -en "\033[1mIntroduce el nombre exacto del organismo (te aconsejamos que lo copies):\033[0m"
    read organismo
    echo
    
    mkdir ./$query/$organismo
    
    ### BLAST, una vez visualizado la seccion de interes del BLAST se puede presionar "Q" para salir del more y continuar con el script.
    
    echo -en "\033[1mHaciendo blast, procesando peticion...\033[0m"
    
    export PATH=/cursos/BI/bin/ncbiblast/bin:$PATH
    cp /cursos/BI/bin/ncbiblast/.ncbirc ~/
    
    mkdir ./$query/$organismo/blast
    
    blastall -p tblastn -i ./query/$query -d /cursos/BI/genomes/protists/$year/$organismo/genome.fa -o ./$query/$organismo/blast/$query.$organismo.blast
    
    echo -e "\033[1mAhora te mostraremos los resultados, con un more. Para salir del more y volver al programa pulsa Q\033[0m"
    echo -en "\033[1mAsegurate de quedarte con la posicion del hit de interes, si estas seguro dale al enter\033[0m"
    read micasa
    
    more ./$query/$organismo/blast/$query.$organismo.blast
    
    ### Fastafetch y Fastaindex, para realizar fastasubseq que es necesario para arreglar algunos genomas. 
    
    export PATH=/cursos/BI/bin/exonerate/i386/bin:$PATH  
    
    rm ./$organismo.index
    
    fastaindex /cursos/BI/genomes/protists/$year/$organismo/genome.fa ./$organismo.index
    
    echo -en "\033[1mIntroduce donde se ecuentra tu hit:  \033[0m"
    read region
    echo
    echo -e "\033[1mIdentifica la region de tu interes en la lista\033[0m"
    
    grep $region ./$organismo.index > ./grep.$organismo.index
    more ./grep.$organismo.index
    
    echo -en "\033[1mInserta el nombre exacto de la region previamente identificada (copia solo la primera columna):  \033[0m"
    read hit
    echo
    
    mkdir ./$query/$organismo/database
    
    fastafetch /cursos/BI/genomes/protists/$year/$organismo/genome.fa $organismo.index $hit > ./$query/$organismo/database/$organismo.$query.$hit.db
    
    rm grep.$organismo.index
    rm $organismo.index
    
    ### Fastasubseq
    
    echo -e "\033[1mRealizando fastasubseq ...\033[0m"
    echo -en "\033[1mIntroduce el lugar de inicio (normalmente coje unas 10000 pares de bases por debajo de la posicion de inicio del hit):  \033[0m"
    read inicio
    echo
    echo -en "\033[1mIntroduce la longitud:  \033[0m"
    read longitud
    echo
    
    mkdir ./$query/$organismo/fastasubseq
    
    fastasubseq ./$query/$organismo/database/$organismo.$query.$hit.db $inicio $longitud > ./$query/$organismo/fastasubseq/$query.$organismo.genome.fa
    
    
    echo -en "\033[1m Ahora veras tu secuencia, verifica que has hecho la seleccion que querias con fastasubseq. Recuerda que para salir del more y volver al programa has de pulsar Q. Por favor, dale ahora a enter para proseguir\033[0m"
    read mitorre
    more  ./$query/$organismo/fastasubseq/$query.$organismo.genome.fa
    echo
    
    echo -en "\033[1mQuieres hacer el exonerate, pon SI o NO (recuerda que va en mayusculas)   \033[0m" 
    read gafas
    if [ "$gafas" = "SI" ]; then
    
    
    ###para el exonerate modificar la U
    
    echo -e "\033[1m*******************************************************************************************************************\033[0m"
    echo -e "\033[1mPara realizar el exonerate cambia la U de tu query por una X, y elimina simbolos como # o @ que no se identificaran\033[0m" 
    echo -e "\033[1mAprovecha para descargar el programa fastaseqfromGFF.pl,si aun no lo tienes\033[0m"
    echo -e "\033[1m*******************************************************************************************************************\033[0m"
    echo -e "\033[1mSi no lo haces exonerate no se ejecutara\033[0m"
    echo -en "\033[1mRecuerda que es tu query es" $query ". ¿Hecho? Apreta Enter\033[0m"
    read micoche
    
    ###haciendo el exonerate, si no sale seguir dando al enter, hasta que el programa realice el Genewise.
    
    export PATH=/cursos/BI/bin/exonerate/i386/bin:$PATH
    
    mkdir ./$query/$organismo/exonerate
    
    echo -e "\033[1mExonerate\033[0m"
    echo
    
    exonerate -m p2g --exhaustive yes --showtargetgff -q ./query/$query -t ./$query/$organismo/fastasubseq/$query.$organismo.genome.fa > ./$query/$organismo/exonerate/$query.$organismo.exonerate.gff
    
    more  ./$query/$organismo/exonerate/$query.$organismo.exonerate.gff
    
    echo -e "\033[1m*******************************************************************************************************************\033[0m"
    echo -e "\033[1mSi te interesa modificar, donde empiezan los exones manualmente para forzar que exonerate te prediga una region mas grande donde quizas se alinee tu selenocisteina, ¡Es ahora o nunca! Recuerda que el archivo lo encontraras en"./$query/$organismo/exonerate/$query.$organismo.exonerate.gff"\033[0m" 
    echo -e "\033[1m*******************************************************************************************************************\033[0m"
    echo -en "\033[1m ¿Hecho o no te interesa? Pues apreta Enter\033[0m"
    read misllaves
    
    egrep -w exon ./$query/$organismo/exonerate/$query.$organismo.exonerate.gff  > $query.$organismo.exo.gff
    
    echo
    echo -e "\033[1mObteniendo el cDNA\033[0m"
    echo
    
    ###haciendo la extraccion del cDNA, con fastaseqfromGFF.pl
    
    mkdir ./$query/$organismo/cDNA
    
    export PATH=/cursos/BI/bin:$PATH
    
    chmod u+x ./fastaseqfromGFF.pl
    
    ./fastaseqfromGFF.pl ./$query/$organismo/fastasubseq/$query.$organismo.genome.fa $query.$organismo.exo.gff
    
    ./fastaseqfromGFF.pl ./$query/$organismo/fastasubseq/$query.$organismo.genome.fa $query.$organismo.exo.gff > ./$query/$organismo/cDNA/$query.$organismo.cDNA
    
    rm $query.$organismo.exo.gff
    
    ###haciendo la conversion del cDNA a proteina
    
    echo
    echo -e "\033[1mEjecutando fastatranslate\033[0m"
    echo
    
    mkdir ./$query/$organismo/proteina
    
    fastatranslate ./$query/$organismo/cDNA/$query.$organismo.cDNA > ./$query/$organismo/proteina/$query.$organismo.fa
    
    echo -e "\033[1m*******************************************************************************************************************\033[0m"
    echo -e "\033[1mSe ha creado el archivo con las proteinas en:"./proteina/$query.$organismo.fa" Visita el archivo, y modificalo de forma que te quedes con 1 único patron de lectura. Aprovecha para cambiar el * por una X para visualizar mejor tus resultados\033[0m"
    echo -e "\033[1mSi tienes dudas sobre que patron escoger, mira el .gff del exonerate ("./$query/$organismo/exonerate/$query.$organismo.exonerate.gff") ya que te indica con que aminoacidos empieza y acaba tu hit.\033[0m" 
    echo -e "\033[1mPor otro lado, aprovecha para revertir la X por la U en tu " $query" al reves que hiciste antes\033[0m"
    echo -e "\033[1m*******************************************************************************************************************\033[0m"
    echo -en "\033[1m¿Hecho? Para proseguir Apreta Enter\033[0m"
    read yes
    
    ###haciendo el t_coffee
    
    echo
    echo -e "\033[1mHaciendo el t_coffee (si te pone mail, inventatelo en plan: a@a)\033[0m"
    echo
    mkdir ./$query/$organismo/t_coffee
    
    t_coffee ./query/$query ./$query/$organismo/proteina/$query.$organismo.fa
    
    mv *html ./$query/$organismo/t_coffee 
    mv *aln ./$query/$organismo/t_coffee  
    
    echo -e "\033[1mAhora te proponemos que compares tu hit con la base de datos no redundante de ncbi. Esto puede serte muy util, sin embargo tarda un tiempo y si lo deseas puedes saltarte la busqueda y pasar al Genewise.\033[0m"
    echo -en "\033[1m Quieres hacer el blast NCBI? Escribe exactamente y en mayusculas: SI o NO   \033[0m"
    read respuesta
    
    if [ "$respuesta" = "SI" ]; then
    
    ###buscando en NCBI
    
    echo -e "\033[1m Buscando en base de datos NCBI\033[0m"
    
    mkdir ./$query/$organismo/ncbi
    
    export PATH=/cursos/BI/bin/netblast/bin:$PATH
    blastcl3 -p blastp -i  ./$query/$organismo/proteina/$query.$organismo.fa -d nr > ./$query/$organismo/ncbi/$query.$organismo.ncbi
    
    fi
    
    fi
    ###haciendo el genewise
    
    echo -e "\033[1mQuieres hacer el genewise, pon SI o NO (recuerda que va en mayusculas)   \033[0m" 
    read pasta
    if [ "$pasta" = "SI" ]; then
    
    echo
    echo -e "\033[1mHaciendo el Genewise\033[0m"
    echo
    
    mkdir ./$query/$organismo/genewise
    
    export PATH=/cursos/BI/bin:$PATH
    export WISECONFIGDIR=/cursos/BI/soft/wise-2.2.0/wisecfg
    
    echo -e "\033[1mRealizando Genewise ... si tu secuencia es invertida,escribe: -trev. Si no dale al enter y ya esta   \033[0m"
    read inverso
    
    genewise -pep -pretty -cdna -gff ./query/$query ./$query/$organismo/fastasubseq/$query.$organismo.genome.fa $inverso > ./$query/$organismo/genewise/$query.$organismo.genewise.gff
    
    echo
    echo -e "\033[1mGenerando secuencia peptidica, asegurese de tener el programa GFFtoFA.pl y dar al enter\033[0m"
    read si
    
    chmod u+x ./GFFtoFA.pl
    
    mkdir ./$query/$organismo/genewise_prot/
    
    ./GFFtoFA.pl < ./$query/$organismo/genewise/$query.$organismo.genewise.gff > ./$query/$organismo/genewise_prot/$query.$organismo.genewise.fa
    
    echo -en "\033[1mA veces nuestro programa no extrae correctamente la secuencia proteica del .gff predicho por Genewise. Por favor, verifica que la secuencia se muestra correctamente, sin lineas raras en las primeras filas hasta el '>'. Encontrarás este archivo en "./$query/$organismo/genewise_prot/$query.$organismo.genewise.fa", modificalo si es necesario y dale al enter para continuar\033[0m"
    read miperro
    
    ###haciendo el t_coffee del genewise
    
    echo
    echo -e "\033[1mHaciendo el t_coffee\033[0m"
    echo
    mkdir ./$query/$organismo/genewise_t_coffee
    
    t_coffee ./query/$query ./$query/$organismo/genewise_prot/$query.$organismo.genewise.fa
    
    mv *html ./$query/$organismo/genewise_t_coffee
    mv *aln ./$query/$organismo/genewise_t_coffee
    
    echo -e "\033[1mAhora te proponemos que compares tu hit con la base de datos no redundante de ncbi. Esto puede serte muy util, sin embargo tarda un tiempo y si lo deseas puedes saltarte la busqueda y finalizar el programa.\033[0m"
    echo -en "\033[1m Quieres hacer el blast NCBI? Escribe exactamente y en mayusculas: SI o NO   \033[0m"
    read resposta
    
    if [ "$resposta" = "SI" ]; then
    
    ###buscando en NCBI_genewise
    
    echo
    echo -e "\033[1mBuscando la proteina nueva en el ncbi\033[0m"
    echo
    
    mkdir ./$query/$organismo/genewise_ncbi
    
    export PATH=/cursos/BI/bin/netblast/bin:$PATH
    blastcl3 -p blastp -i  ./$query/$organismo/genewise_prot/$query.$organismo.genewise.fa -d nr > ./$query/$organismo/genewise_ncbi/$query.$organismo.ncbi
    
    fi
    fi
    echo
    echo -e "\033[1mLa anotacion de tu "$query" en el genoma de "$organismo" ha finalizado com exito\033[0m"
    echo 

    Videotutorial:

    fastaseqfromGFF.pl

    És un programa en lleguatge perl cedit pels professors de l'assignatura de bioinformàtica, necessari per al correcte funcionament del programa AMRAgenomeannotation.bash, permet emmagatzemar en un fitxer FASTA el cDNA corresponent a la predicció del exonerate. S'ha d'ubicar a la mateixa carpeta que AMRAgenomeannotation.bash. Trobeu l'script aquí.

    GFFtoFA.pl

    És un petit script en llenguatge perl que hem desenvolupat amb l'ajut de Robert Castelo. Permet la sustracciò automàtica de la seqüència d'aminoàcids de l'arixu .gff generat per genewise. Aprofitant la forma en la que es genera el .gff amb la comanda: genewise -pep -pretty -cdna -gff query.fa genome.fa, esmentada a Materials i Mètodes. L'script del programa és el següent:

    #!/usr/bin/perl -w
    
    use strict;
    my $i;
    
    $/="//";
    $i =0;
    
    while (){
        if ($i==1){
    	chomp;
            print;
        }
        $i = $i + 1;
    } 
    Necessita l'entrada de l'arxiu .gff i generarà un arixu de sortida amb la proteina predita, podem emprar la següent comanda per al seu funcionament:
    ./GFFtoFA.pl < ./$query/$organismo/genewise/$query.$organismo.genewise.gff > ./$query/$organismo/genewise_prot/$query.$organismo.genewise.fa 

    tRNAscan.bash

    Aquest programa permet analitzar amb el tRNAscan-SE tots els genomes dels organismes 2012 i altres que hem agafat com a control.

    Requereix:

    1. Instalar el programa tRNAscan-SE.
    2. El programa tRNAscan.bash dins la carpeta bin, on es troba el tRNAscan-SE instalat.

    Funcionament bàsic:
    El programa te els organismes especificats en diversos for i va fent el tRNAscan-SE, per a cada un automàticament. Les possibles modificacions del codi per adaptar-lo a nous genomes son similars a les descrites previament al programa BLAST.bash.

    Execució:

    1. Donar permissos al programa amb la comanda: chmod u+x tRNAscan.bash.
    2. Executar el programa al terminal amb la comanda: ./tRNAscan.bash.bash

    Codi:

    #!/bin/bash
    mkdir ~/tRNAscan
                   for genome in A.laibachii_Nc14 A.rara C.fasciculata D.discoideum_AX4 D.fasciculatum F.cylindrus G.niphandrodes I.multifiliis_strain_G5 L.donovani_BPK282A1 L.tarentolae P.capsici P.polycephalum S.arctica T.congolense; do {
    echo "fent $genome"                     
    ./tRNAscan-SE /cursos/BI/genomes/protists/2012/$genome/genome.fa > ~/tRNAscan/$genome.out
                                          } done
     for genome2 in T.cruzi T.parva P.sojae E.histolytica M.brevicollis; do {
    echo "fent $genome2"                     
    ./tRNAscan-SE /cursos/BI/genomes/protists/2010/$genome2/genome.fa > ~/tRNAscan/$genome2.out 
                                          } done
    for genome3 in D.purpureum L.mexicana; do {
    echo "fent $genome3"                     
    ./tRNAscan-SE /cursos/BI/genomes/protists/2009/$genome3/genome.fa > ~/tRNAscan/$genome3.out 
                                          } done
    for genome4 in P.tetraurelia; do {
    echo "fent $genome4"                     
    ./tRNAscan-SE /cursos/BI/genomes/protists/2008/$genome4/genome.fa > ~/tRNAscan/$genome4.out 
                                          } done
    echo fet 

    Altre programari emprat

  • BLAST (Basic Local Alignment Search Tool) és una eina d'alineament local per a seqüències de proteïnes o nucleòtids. Aquest algorisme cerca regions de similaritat entre la seqüència query i cadascuna de les seqüències en la base de dades. És un mètode heurístic i prioritza la velocitat davant la sensibilitat, això permet fer cerques en seqüències tan llargues com tot el genoma sencer. Per al nostre treball hem utilitzat tBLASTn, que alinea la seqüència d'aminoàcids contra seqüències de nucleòtids de la base de dades, de forma que és útil per a predir homòlegs de gens coneguts en nous genomes; i BLASTp que alinea aminoàcids contra aminoàcids.

  • Exonerate és un programa per a comparar alineaments. Permet utilitzar diferents models d'alineament, tant amb programació dinàmica com variants heurístiques. En el nostre treball l'hem utilitzat per a definir les coordenades cromosòmiques dels exons en els gens que hem trobat i predir l'estructura peptídica. El paquet exonerate conté diverses eines, d'entre les quals hem utilitzat: fastaindex, fastafetch, fastasubseq i fastatranslate.

  • GeneWise forma part del paquet Wise2 i s'utilitza per a comparar una única proteïna contra una única seqüència de DNA genòmic. Permet predir l'estructura de gens. Nosaltres l'hem utilitzat per a extreure els exons dels gens que hem identificat.

  • T-Coffee és un programa per a l'alineament múltiple de seqüències. Un cop obtingudes les seqüències en el genoma, s'ha utilitzat aquest programa per a alinear-les amb la seqüència inicial. Aquest programa permet també comparar diversos alineaments obtinguts per diferents mètodes.

  • SECISearch és un programa de predicció d'elements SECIS que es basa en el programa PatScan, que detecta diferents tipus de patrons en seqüències tant de proteïnes com nucleotídiques, i en el Vienna RNA Package, un programa que prediu estructures secundàries de RNA.

  • Jalview és una eina d'edició i anàlisi d'alineament múltiple escrit en Java. Permet l'anàlisi de subfamilies i predicció de dominis funcionals.

  • tRNAscan-SE 1.21 és una eina de detecció de tRNAs d'uns organismes donats. L'utilitzarem per a buscar el tRNA específic de SeCys en els organismes 2012.

  • Selenoprofiles és un programa del CRG fet per Marco Mariotti, que és capaç d'escanejar uns genomes donats i predir si hi ha selenoproteïnes.