Automatització i programes
Per tal d'automatitzar i agilitzar el procés d'anotació dels genomes, hem creat uns sèrie de programes en llenguatge bash i en llenguatge perl. Concretament hem creat 3 programes bash i 1 programes perl:
BLAST.bash és un programa que produeix alineaments locals de seqüències tipus tBLASTn de forma automàtica. Permet comparar un conjunt de seqüències proteiques dins de la carpeta querys contra diferents bases de dades de nucelòtids previament definides. En el nostre contra tots els genomes dels organismes protistes del directori: /cursos/BI/genomes/protists/2012
AMRAgenomeannotation.bash és un programa que automatitza tot el protocol descrit a Materials i Mètodes permetent a l'usuari manipular els paràmetres manualment en els punts crítics evitant possibles errors del procés d'automatització. Fa tBLASTn, fastaindex, fastafetch, fastasubseq, exonerate, genewise, t-coffee d'ambdues prediccions i cerca d'homòlegs al conjunt de proteïnes no redundants de NCBI. Creant tots els arxius i ordenant-los en un sistema de carpetes molt còmode. A més a més esta adaptat per a qualsevol query i qualsevol genoma protista dels anys següents sense necesitat de manipular el codi del programa.
GFFtoFA.pl és un petit script en llenguatge perl, necessari per al correcte funcionament del programa AMRAgenomeannotation.bash, permet l'extracció automàtica de la seqüència d'aminoàcids de l'arixu .gff generat per genewise.
tRNAscan.bash és un programa que permet automatitzar el procés d'escanejat del TRNAscan-SE. Primer s'especifiquen els organismes en un for, i el programa els va escanejant un a un creant fitxers de sortida que després analitzarem manualment.
Per aconseguir tots els programes, clica aquí.
Aquest programa permet fer tBLASTn de forma automàtica de cada proteina que estigui dins la carpeta querys contra tots els genomes protistes del directori: /cursos/BI/genomes/protists/2012.
Requereix:
- El programa blast.bash.
- Una carpeta al mateix directori anomenada "querys". En aquest directori és on tindrem les nostres querys o proteïnes en format .fa.
- Tenir instalat a l'ordinador el software NCBI Blast.
Funcionament bàsic:
El programa en primer lloc fa una llista amb tots els noms de les nostres querys sense el .fa. I desprès fa dos bucles for per a fer tots els tBLASTn de les possibles combinacions entre proteïnes i genomes. Les possibles modificacions del codi per adaptar-lo a nous genomes s'indiquen al codi descrit més avall.
Execució:
- Donar permissos al programa amb la comanda: chmod u+x blast.bash.
- Executar el programa al terminal amb la comanda: ./blast.bash
Codi:
#!/bin/bash
### Script hecho por el grupo 4c de 4º de Biologia Humana del curso 2011-2012 de la Universitat Pompeu Fabra, para la asignatura de Bioinformatica.
export PATH=/cursos/BI/bin/ncbiblast/bin:$PATH
cp /cursos/BI/bin/ncbiblast/.ncbirc ~/
### Aixo es per a detectar quines proteines hi ha a la carpeta querys. Agafa el nom dels arxius, els treu el .fa i els ordena en una llista per a poder fer servir la comanda for.
for query_fa in ./querys/*; do {
query=`basename $query_fa`
nomproteina=${query%.fa}
llistaquerys=$llistaquerys" $nomproteina"
} done
mkdir ./blasts
### Aqui comença el BLAST: dos bucles for per a fer les combinaciones entre proteines de la llistaquerys i els genomes anotats a sota manualment. Per a modificacions futures de anys vinents, heu de substituir els vostres organismes de la comanda (1) i asseguar-vos de canviar l'any en el punt (2) on posa 2012.
for nomproteina in $llistaquerys; do {
#(1)#
for genome in A.laibachii_Nc14 A.rara C.fasciculata D.discoideum_AX4 D.fasciculatum F.cylindrus G.niphandrodes I.multifiliis_strain_G5 L.donovani_BPK282A1 L.tarentolae P.capsici P.polycephalum S.arctica T.congolense; do {
echo "fent $nomproteina en $genome"
#(2)#
blastall -p tblastn -i ./querys/$nomproteina.fa -d /cursos/BI/genomes/protists/2012/$genome/genome.fa -o blasts/$nomproteina.$genome.txt
} done
echo fet
} done
Aquest programa permet anotar una a una cada proteina de la carpeta "query" contra el genoma que volguem. Inclou les comandes per fer tBLASTn, fastaindex, fastafetch, fastasubseq, exonerate, genewise, t-coffee d'ambdues prediccions i cerca d'homòlegs al conjunt de proteïnes no redundants de NCBI de forma automàtica. Permet a l'usuari escollir quines proteines vol, quins organismes, modificar manualment els arxius durant el funcionament del programa, valorar quins contigs es volen estudiar,... i tots els arxius generats els ordena en un còmode sistema de carpetes. És tracta d'un programa semiautomàtic però agilitza enormement el procés d'obtenció de dades.
Requereix:
- El programa AMRAgenomeannotation.bash.
- El programa fastaseqfromGFF.pl.
- El programa GFFtoFA.pl.
- Una carpeta al mateix directori anomenada "query". En aquest directori és on tindrem les nostres querys o proteïnes en format .fa.
- Tenir instalat a l'ordinador el software NCBI Blast.
- Tenir instalat a l'ordinador el software exonerate.
- Tenir instalat a l'ordinador el software genewise.
Funcionament bàsic:
Gràcies a les comandes -echo i -read el programa permet que l'usuari indiqui manualment que l'interesa estudiar i manipular els arxius. En primer lloc el programa ens pregunta quina query volem estudiar i ens mostra per pantalla les nostres proteïnes dins la carpeta "query", i ens demana que escrivim la query. Després ens pregunta per quin any i quin organisme volem estudiar i ens deixa introduir les dades. Si tot està correcte ens genera i mostra un more del tBLASTn per a que identifiquem el nostre hit, pulsem Q, i fa fastaindex i fastafetch i ens demana que escrivim el contig o regió on hem trobat el nostre hit, la posició d'inici (agafar menys 10kb) i la llargaria que direm que són 20000, per a realitzar el fastasubseq. Ens mostra la regió que ha agafat, pulsem Q. A continuació ens demana si volem fer exonerate, i podem escriure SI, i el programa s'atura per a deixar-nos manipular la nostra query, canviant la U per la X per a que exonerate no doni error. A continuació mostra l'arixu .gff, i ens dona l'opció de canviar-ho. Si no ens interesa continuem amb Enter. Fa el fastaseqfromGFF i el fastatranslate i el programa s'atura per a que modifiquem manualment la predicció de la proteïna i agafem la pauta de lectura correcta, aixi com variar la * per una X o la X de la query per la U. Posteriorment fa t-coffee i pregunta si volem fer blastP de la nostra predicció contra el conjunt de proteines no redundants de NCBI. Ara ens torna a preguntar si volem fer Genewise i fa també el t-coffee i blastp contra NCBI de la nova predicció.Trobareu els pasos més detallats al codi del programa descrit més avall, així com instruccions al terminal durant l'execució del programa. Per a més informació sobre el funcionament aquí un cas real.
Execució:
- Donar permissos al programa amb la comanda: chmod u+x AMRAgenomeannotation.bash
- Executar el programa al terminal amb la comanda: ./AMRAgenomeannotation.bash
Codi:
#!/bin/bash
# Script hecho por el grupo 4c de 4o de Biologia Humana del curso 2011-2012 de la Universitat Pompeu Fabra, para la asignatura de Bioinformatica.
## Antes de comenzar, se tiene que crear una carpeta "query" donde tengamos las secuencias que desamos analizar en los genomas.
## Los fallos del script mas usuales son equivocarse al introducir los datos o no descargar los programas adjuntos: GFFtoFA.pl y fastaseqfromGFF.pl.
### Escogiendo la secuencia
echo -e "\033[1mBuenos dias usuario! Hacemos unos blast? Te acordaste de crear la carpeta query?\033[0m"
echo
echo -e "\033[1mQue query quieres mirar?\033[0m"
ls ./query
echo
echo -en "\033[1mIntroduce el nombre exacto de la query: \033[0m"
read query
echo
mkdir ./$query
### Escogiendo el organismo
echo -en "\033[1mLos organismos que quieres mirar, de que year son? \033[0m"
read year
echo
ls /cursos/BI/genomes/protists/$year
echo -en "\033[1mIntroduce el nombre exacto del organismo (te aconsejamos que lo copies):\033[0m"
read organismo
echo
mkdir ./$query/$organismo
### BLAST, una vez visualizado la seccion de interes del BLAST se puede presionar "Q" para salir del more y continuar con el script.
echo -en "\033[1mHaciendo blast, procesando peticion...\033[0m"
export PATH=/cursos/BI/bin/ncbiblast/bin:$PATH
cp /cursos/BI/bin/ncbiblast/.ncbirc ~/
mkdir ./$query/$organismo/blast
blastall -p tblastn -i ./query/$query -d /cursos/BI/genomes/protists/$year/$organismo/genome.fa -o ./$query/$organismo/blast/$query.$organismo.blast
echo -e "\033[1mAhora te mostraremos los resultados, con un more. Para salir del more y volver al programa pulsa Q\033[0m"
echo -en "\033[1mAsegurate de quedarte con la posicion del hit de interes, si estas seguro dale al enter\033[0m"
read micasa
more ./$query/$organismo/blast/$query.$organismo.blast
### Fastafetch y Fastaindex, para realizar fastasubseq que es necesario para arreglar algunos genomas.
export PATH=/cursos/BI/bin/exonerate/i386/bin:$PATH
rm ./$organismo.index
fastaindex /cursos/BI/genomes/protists/$year/$organismo/genome.fa ./$organismo.index
echo -en "\033[1mIntroduce donde se ecuentra tu hit: \033[0m"
read region
echo
echo -e "\033[1mIdentifica la region de tu interes en la lista\033[0m"
grep $region ./$organismo.index > ./grep.$organismo.index
more ./grep.$organismo.index
echo -en "\033[1mInserta el nombre exacto de la region previamente identificada (copia solo la primera columna): \033[0m"
read hit
echo
mkdir ./$query/$organismo/database
fastafetch /cursos/BI/genomes/protists/$year/$organismo/genome.fa $organismo.index $hit > ./$query/$organismo/database/$organismo.$query.$hit.db
rm grep.$organismo.index
rm $organismo.index
### Fastasubseq
echo -e "\033[1mRealizando fastasubseq ...\033[0m"
echo -en "\033[1mIntroduce el lugar de inicio (normalmente coje unas 10000 pares de bases por debajo de la posicion de inicio del hit): \033[0m"
read inicio
echo
echo -en "\033[1mIntroduce la longitud: \033[0m"
read longitud
echo
mkdir ./$query/$organismo/fastasubseq
fastasubseq ./$query/$organismo/database/$organismo.$query.$hit.db $inicio $longitud > ./$query/$organismo/fastasubseq/$query.$organismo.genome.fa
echo -en "\033[1m Ahora veras tu secuencia, verifica que has hecho la seleccion que querias con fastasubseq. Recuerda que para salir del more y volver al programa has de pulsar Q. Por favor, dale ahora a enter para proseguir\033[0m"
read mitorre
more ./$query/$organismo/fastasubseq/$query.$organismo.genome.fa
echo
echo -en "\033[1mQuieres hacer el exonerate, pon SI o NO (recuerda que va en mayusculas) \033[0m"
read gafas
if [ "$gafas" = "SI" ]; then
###para el exonerate modificar la U
echo -e "\033[1m*******************************************************************************************************************\033[0m"
echo -e "\033[1mPara realizar el exonerate cambia la U de tu query por una X, y elimina simbolos como # o @ que no se identificaran\033[0m"
echo -e "\033[1mAprovecha para descargar el programa fastaseqfromGFF.pl,si aun no lo tienes\033[0m"
echo -e "\033[1m*******************************************************************************************************************\033[0m"
echo -e "\033[1mSi no lo haces exonerate no se ejecutara\033[0m"
echo -en "\033[1mRecuerda que es tu query es" $query ". ¿Hecho? Apreta Enter\033[0m"
read micoche
###haciendo el exonerate, si no sale seguir dando al enter, hasta que el programa realice el Genewise.
export PATH=/cursos/BI/bin/exonerate/i386/bin:$PATH
mkdir ./$query/$organismo/exonerate
echo -e "\033[1mExonerate\033[0m"
echo
exonerate -m p2g --exhaustive yes --showtargetgff -q ./query/$query -t ./$query/$organismo/fastasubseq/$query.$organismo.genome.fa > ./$query/$organismo/exonerate/$query.$organismo.exonerate.gff
more ./$query/$organismo/exonerate/$query.$organismo.exonerate.gff
echo -e "\033[1m*******************************************************************************************************************\033[0m"
echo -e "\033[1mSi te interesa modificar, donde empiezan los exones manualmente para forzar que exonerate te prediga una region mas grande donde quizas se alinee tu selenocisteina, ¡Es ahora o nunca! Recuerda que el archivo lo encontraras en"./$query/$organismo/exonerate/$query.$organismo.exonerate.gff"\033[0m"
echo -e "\033[1m*******************************************************************************************************************\033[0m"
echo -en "\033[1m ¿Hecho o no te interesa? Pues apreta Enter\033[0m"
read misllaves
egrep -w exon ./$query/$organismo/exonerate/$query.$organismo.exonerate.gff > $query.$organismo.exo.gff
echo
echo -e "\033[1mObteniendo el cDNA\033[0m"
echo
###haciendo la extraccion del cDNA, con fastaseqfromGFF.pl
mkdir ./$query/$organismo/cDNA
export PATH=/cursos/BI/bin:$PATH
chmod u+x ./fastaseqfromGFF.pl
./fastaseqfromGFF.pl ./$query/$organismo/fastasubseq/$query.$organismo.genome.fa $query.$organismo.exo.gff
./fastaseqfromGFF.pl ./$query/$organismo/fastasubseq/$query.$organismo.genome.fa $query.$organismo.exo.gff > ./$query/$organismo/cDNA/$query.$organismo.cDNA
rm $query.$organismo.exo.gff
###haciendo la conversion del cDNA a proteina
echo
echo -e "\033[1mEjecutando fastatranslate\033[0m"
echo
mkdir ./$query/$organismo/proteina
fastatranslate ./$query/$organismo/cDNA/$query.$organismo.cDNA > ./$query/$organismo/proteina/$query.$organismo.fa
echo -e "\033[1m*******************************************************************************************************************\033[0m"
echo -e "\033[1mSe ha creado el archivo con las proteinas en:"./proteina/$query.$organismo.fa" Visita el archivo, y modificalo de forma que te quedes con 1 único patron de lectura. Aprovecha para cambiar el * por una X para visualizar mejor tus resultados\033[0m"
echo -e "\033[1mSi tienes dudas sobre que patron escoger, mira el .gff del exonerate ("./$query/$organismo/exonerate/$query.$organismo.exonerate.gff") ya que te indica con que aminoacidos empieza y acaba tu hit.\033[0m"
echo -e "\033[1mPor otro lado, aprovecha para revertir la X por la U en tu " $query" al reves que hiciste antes\033[0m"
echo -e "\033[1m*******************************************************************************************************************\033[0m"
echo -en "\033[1m¿Hecho? Para proseguir Apreta Enter\033[0m"
read yes
###haciendo el t_coffee
echo
echo -e "\033[1mHaciendo el t_coffee (si te pone mail, inventatelo en plan: a@a)\033[0m"
echo
mkdir ./$query/$organismo/t_coffee
t_coffee ./query/$query ./$query/$organismo/proteina/$query.$organismo.fa
mv *html ./$query/$organismo/t_coffee
mv *aln ./$query/$organismo/t_coffee
echo -e "\033[1mAhora te proponemos que compares tu hit con la base de datos no redundante de ncbi. Esto puede serte muy util, sin embargo tarda un tiempo y si lo deseas puedes saltarte la busqueda y pasar al Genewise.\033[0m"
echo -en "\033[1m Quieres hacer el blast NCBI? Escribe exactamente y en mayusculas: SI o NO \033[0m"
read respuesta
if [ "$respuesta" = "SI" ]; then
###buscando en NCBI
echo -e "\033[1m Buscando en base de datos NCBI\033[0m"
mkdir ./$query/$organismo/ncbi
export PATH=/cursos/BI/bin/netblast/bin:$PATH
blastcl3 -p blastp -i ./$query/$organismo/proteina/$query.$organismo.fa -d nr > ./$query/$organismo/ncbi/$query.$organismo.ncbi
fi
fi
###haciendo el genewise
echo -e "\033[1mQuieres hacer el genewise, pon SI o NO (recuerda que va en mayusculas) \033[0m"
read pasta
if [ "$pasta" = "SI" ]; then
echo
echo -e "\033[1mHaciendo el Genewise\033[0m"
echo
mkdir ./$query/$organismo/genewise
export PATH=/cursos/BI/bin:$PATH
export WISECONFIGDIR=/cursos/BI/soft/wise-2.2.0/wisecfg
echo -e "\033[1mRealizando Genewise ... si tu secuencia es invertida,escribe: -trev. Si no dale al enter y ya esta \033[0m"
read inverso
genewise -pep -pretty -cdna -gff ./query/$query ./$query/$organismo/fastasubseq/$query.$organismo.genome.fa $inverso > ./$query/$organismo/genewise/$query.$organismo.genewise.gff
echo
echo -e "\033[1mGenerando secuencia peptidica, asegurese de tener el programa GFFtoFA.pl y dar al enter\033[0m"
read si
chmod u+x ./GFFtoFA.pl
mkdir ./$query/$organismo/genewise_prot/
./GFFtoFA.pl < ./$query/$organismo/genewise/$query.$organismo.genewise.gff > ./$query/$organismo/genewise_prot/$query.$organismo.genewise.fa
echo -en "\033[1mA veces nuestro programa no extrae correctamente la secuencia proteica del .gff predicho por Genewise. Por favor, verifica que la secuencia se muestra correctamente, sin lineas raras en las primeras filas hasta el '>'. Encontrarás este archivo en "./$query/$organismo/genewise_prot/$query.$organismo.genewise.fa", modificalo si es necesario y dale al enter para continuar\033[0m"
read miperro
###haciendo el t_coffee del genewise
echo
echo -e "\033[1mHaciendo el t_coffee\033[0m"
echo
mkdir ./$query/$organismo/genewise_t_coffee
t_coffee ./query/$query ./$query/$organismo/genewise_prot/$query.$organismo.genewise.fa
mv *html ./$query/$organismo/genewise_t_coffee
mv *aln ./$query/$organismo/genewise_t_coffee
echo -e "\033[1mAhora te proponemos que compares tu hit con la base de datos no redundante de ncbi. Esto puede serte muy util, sin embargo tarda un tiempo y si lo deseas puedes saltarte la busqueda y finalizar el programa.\033[0m"
echo -en "\033[1m Quieres hacer el blast NCBI? Escribe exactamente y en mayusculas: SI o NO \033[0m"
read resposta
if [ "$resposta" = "SI" ]; then
###buscando en NCBI_genewise
echo
echo -e "\033[1mBuscando la proteina nueva en el ncbi\033[0m"
echo
mkdir ./$query/$organismo/genewise_ncbi
export PATH=/cursos/BI/bin/netblast/bin:$PATH
blastcl3 -p blastp -i ./$query/$organismo/genewise_prot/$query.$organismo.genewise.fa -d nr > ./$query/$organismo/genewise_ncbi/$query.$organismo.ncbi
fi
fi
echo
echo -e "\033[1mLa anotacion de tu "$query" en el genoma de "$organismo" ha finalizado com exito\033[0m"
echo
Videotutorial:
fastaseqfromGFF.pl
És un programa en lleguatge perl cedit pels professors de l'assignatura de bioinformàtica, necessari per al correcte funcionament del programa AMRAgenomeannotation.bash, permet emmagatzemar en un fitxer FASTA el cDNA corresponent a la predicció del exonerate. S'ha d'ubicar a la mateixa carpeta que AMRAgenomeannotation.bash. Trobeu l'script aquí.
GFFtoFA.pl
És un petit script en llenguatge perl que hem desenvolupat amb l'ajut de Robert Castelo. Permet la sustracciò automàtica de la seqüència d'aminoàcids de l'arixu .gff generat per genewise. Aprofitant la forma en la que es genera el .gff amb la comanda: genewise -pep -pretty -cdna -gff query.fa genome.fa, esmentada a Materials i Mètodes. L'script del programa és el següent:
#!/usr/bin/perl -w
use strict;
my $i;
$/="//";
$i =0;
while (){
if ($i==1){
chomp;
print;
}
$i = $i + 1;
}
Necessita l'entrada de l'arxiu .gff i generarà un arixu de sortida amb la proteina predita, podem emprar la següent comanda per al seu funcionament:
./GFFtoFA.pl < ./$query/$organismo/genewise/$query.$organismo.genewise.gff > ./$query/$organismo/genewise_prot/$query.$organismo.genewise.fa
Aquest programa permet analitzar amb el tRNAscan-SE tots els genomes dels organismes 2012 i altres que hem agafat com a control.
Requereix:
- Instalar el programa tRNAscan-SE.
- El programa tRNAscan.bash dins la carpeta bin, on es troba el tRNAscan-SE instalat.
Funcionament bàsic:
El programa te els organismes especificats en diversos for i va fent el tRNAscan-SE, per a cada un automàticament. Les possibles modificacions del codi per adaptar-lo a nous genomes son similars a les descrites previament al programa BLAST.bash.
Execució:
- Donar permissos al programa amb la comanda: chmod u+x tRNAscan.bash.
- Executar el programa al terminal amb la comanda: ./tRNAscan.bash.bash
Codi:
#!/bin/bash
mkdir ~/tRNAscan
for genome in A.laibachii_Nc14 A.rara C.fasciculata D.discoideum_AX4 D.fasciculatum F.cylindrus G.niphandrodes I.multifiliis_strain_G5 L.donovani_BPK282A1 L.tarentolae P.capsici P.polycephalum S.arctica T.congolense; do {
echo "fent $genome"
./tRNAscan-SE /cursos/BI/genomes/protists/2012/$genome/genome.fa > ~/tRNAscan/$genome.out
} done
for genome2 in T.cruzi T.parva P.sojae E.histolytica M.brevicollis; do {
echo "fent $genome2"
./tRNAscan-SE /cursos/BI/genomes/protists/2010/$genome2/genome.fa > ~/tRNAscan/$genome2.out
} done
for genome3 in D.purpureum L.mexicana; do {
echo "fent $genome3"
./tRNAscan-SE /cursos/BI/genomes/protists/2009/$genome3/genome.fa > ~/tRNAscan/$genome3.out
} done
for genome4 in P.tetraurelia; do {
echo "fent $genome4"
./tRNAscan-SE /cursos/BI/genomes/protists/2008/$genome4/genome.fa > ~/tRNAscan/$genome4.out
} done
echo fet
BLAST (Basic Local Alignment Search Tool) és una eina d'alineament local per a seqüències de proteïnes o nucleòtids. Aquest algorisme cerca regions de similaritat entre la seqüència query i cadascuna de les seqüències en la base de dades. És un mètode heurístic i prioritza la velocitat davant la sensibilitat, això permet fer cerques en seqüències tan llargues com tot el genoma sencer. Per al nostre treball hem utilitzat tBLASTn, que alinea la seqüència d'aminoàcids contra seqüències de nucleòtids de la base de dades, de forma que és útil per a predir homòlegs de gens coneguts en nous genomes; i BLASTp que alinea aminoàcids contra aminoàcids.
Exonerate és un programa per a comparar alineaments. Permet utilitzar diferents models d'alineament, tant amb programació dinàmica com variants heurístiques. En el nostre treball l'hem utilitzat per a definir les coordenades cromosòmiques dels exons en els gens que hem trobat i predir l'estructura peptídica. El paquet exonerate conté diverses eines, d'entre les quals hem utilitzat: fastaindex, fastafetch, fastasubseq i fastatranslate.
GeneWise forma part del paquet Wise2 i s'utilitza per a comparar una única proteïna contra una única seqüència de DNA genòmic. Permet predir l'estructura de gens. Nosaltres l'hem utilitzat per a extreure els exons dels gens que hem identificat.
T-Coffee és un programa per a l'alineament múltiple de seqüències. Un cop obtingudes les seqüències en el genoma, s'ha utilitzat aquest programa per a alinear-les amb la seqüència inicial. Aquest programa permet també comparar diversos alineaments obtinguts per diferents mètodes.
SECISearch és un programa de predicció d'elements SECIS que es basa en el programa PatScan, que detecta diferents tipus de patrons en seqüències tant de proteïnes com nucleotídiques, i en el Vienna RNA Package, un programa que prediu estructures secundàries de RNA.
Jalview és una eina d'edició i anàlisi d'alineament múltiple escrit en Java. Permet l'anàlisi de subfamilies i predicció de dominis funcionals.
tRNAscan-SE 1.21 és una eina de detecció de tRNAs d'uns organismes donats. L'utilitzarem per a buscar el tRNA específic de SeCys en els organismes 2012.
Selenoprofiles és un programa del CRG fet per Marco Mariotti, que és capaç d'escanejar uns genomes donats i predir si hi ha selenoproteïnes.