El formato .gtf es uno de los formatos que podemos seleccionar para los ficheros output de Ensembl en el servicio de Ensmart.
Este formato muestra las anotaciones de los genes seleccionados mediante la siguiente estructura.
Ejemplo para gen humano:
chr1 Ensembl CDS 380 401 . + 0 gene_id "ENSG001.1"; transcript_id "ENST001.1"; exon_id "ENSE001.1"; chr1 Ensembl CDS 501 650 . + 2 gene_id "ENSG001.1"; transcript_id "ENST001.1"; exon_id "ENSE001.1"; chr1 Ensembl CDS 700 707 . + 2 gene_id "ENSG001.1"; transcript_id "ENST001.1"; exon_id "ENSE001.1"; chr1 Ensembl start_codon 380 382 . + 0 gene_id "ENSG001.1"; transcript_id "ENST001.1"; exon_id "ENSE001.1"; chr1 Ensembl stop_codon 708 710 . + 0 gene_id "ENSG001.1"; transcript_id "ENST001.1"; exon_id "ENSE001.1";
[chromosome] [source] [feature] [start] [end] [score] [strand] [frame] [attributes-id] [comments]
[chromosome]
Indica el cromosoma al cual pertenece la anotación.[source]
Etiqueta de una sola palabra que indica la fuente de la cual procede la anotación, generalmente es el nombre del programa de predicción usado o de la base de datos pública de procedencia, en este caso Ensembl.[feature]
Caracteriza la secuencia anotada. Las tres características básicas que presenta son "start_codon",codón de inicio de transcripción; "stop_codon", codón de fin de transcripción; "CDS" representa la secuencia codificante,que incluye el codón de inicio de transcripción, pero no el codon stop, de finalización de la transcripción.[start] [end]
Indican los nucleótidos de inicio y final de la característica mencionada en la columna anterior.[score]
En este caso sólo se presenta como un punto, simplemente como indicación de la posible presencia de señal del "point floating value".[strand]
Puede presentarse como "+", "-", o "." cuando no es relevante (por ejemplo en repeticiones de dinucleótidos), para indicar cual de las dos hebras del DNA es la que se transcribe.[frame]
Puede presentarse como "0", "1" o "2". Indica la fase del extremo 5' del exón. El convenio de fases utilizado en este proyecto está descrito en los objetivos de nuestro proyecto.[attributes-id]
Muestra los identificadores de los genes, tránscritos y exones, que pueden ir acompañados de E-value.