Ensembl es una base de datos de genomas de metazoos permanentemente actualizada gracias al proyecto común desarrollado por EMBL - EBI y Sanger Institute
Su base de datos da acceso gratuito a todo el genoma humano que actualmente es de dominio público y a una gran colección de genes de diferentes especies y su "anotaciones". Además de la descripción de las características identificadas en el DNA reflejada en las llamadas anotaciones, también describe otras características interesantes como SNPs, repeats y homologías.
A parte del acceso a esta gran base de datos, permite una utilización del software de su proyecto para analizar y extraer la información de interés.
Las posiblidades de Ensembl y de su software son amplias. En nuestro caso hemos utilizado el servicio de Ensembl, Ensmart.
Mediante Ensmart hemos obtenido las anotaciones de los genes ortólogos entre Homo sapiens y cada una de las tres especies descritas.
Las opciones seleccionadas han sido las siguientes:
- Selección del dataset de la especie deseada. Next.
- Deselección la limitación a un determinado cromosoma para que busque los genes ortólogos en todo el genoma. Next.
- En la pestaña "Features" selección de "Ensembl Gene ID" de la opción "GENE"; y en la opción "MULTI SPECIES" selección del Ensembl Gene ID de la especie de la cual queremos obtener los genes ortólogos con Homo sapiens.
- Y en la pestaña "Structures" selección del formato del output: GTF, y de la compresión del archivo: GZIP.
Para obtener las listas tabuladas de los genes ortólogos de humano en cada una de las tres especies, no ha hecho falta realizar el paso cuarto descrito. Tan sólo ha hecho falta seleccionar, en la pestaña "Features", el formato del output: Text tab separated, y nuevamente la compresión GZIP.
Para descomprimir estos ficheros tan sólo ha hecho falta utilizar la siguiente comanda de Shell:
(Ejemplo con el fichero hm.gz)gzip -d hm.gz
De esta manera hemos descomprimido todos los archivos procedentes del análisis mediante Ensmart para poder trabajar con ellos.
Revisando la metodología y los materiales usados en nuestro proyecto nos hemos dado cuenta que la web de Ensembl (específicamente Ensmart) ha realizado algunas actualizaciones en la organización de sus opciones y algún paso de los descritos para obtener estos ficheros puede no con coincidir los que actualmente deberían realizarse .