Objetivo

En este trabajo, hemos querido elaborar un programa que fuese capaz de mostrar el nivel de conservación de tránscritos de genes ortólogos de humano y ratón. Éste es fácilmente aplicable a otras especies, la única diferencia consistiría en aplicar distintos ficheros de base.

Este objetivo puede lograrse de dos maneras distintas, en función de las necesidades:

analizar un fichero que contenga genes o tránscritos de una misma especie obteniendo como resultado final una relació,n de genes ortólogos, tránscritos de los genes ortólogos, alineamiento de tránscritos y valor de dicho alineamiento pudiendo sacar conclusiones referentes a su conservación
analizar la conservación de un tránscrito concreto en la otra especie, de manera que podrímos obtener su gen correspondiente, el gen ortólogo, y los tránscritos del gen ortólogo con el correspondiente alineamiento y valores del alineamiento de los tránscritos

Para la elaboración de este trabajo, podemos distinguir dos partes bien diferenciadas: obtención y manipulación de archivos y ficheros, y diseño de algorismos para construir un programa capaz de trabajar con dichos archivos.

A continuación explicaremos con detenimiento las distintas partes de las que consta la elaboración de este trabajo.

Ficheros

Todos los ficheros que hemos utilizado para la confección de este programa han sido obtenidos a partir de EnsMart, un servicio de Ensembl, que nos permite obtener identificadores de genes, tránscritos, péptidos y proteínas, además de sus secuencias y/o estructuras entre otras informaciones. De este modo, y mediante la selección del formato adecuado, podemos conseguir los distintos archivos de texto, que podrán ser modificados posteriormente en función de la información que se requiera en cada momento.

El programa no está diseñado exclusivamente para poder procesar informació procedente de Ensembl, ya que podemos elaborar ficheros de base a partir de otros servidores o bases de datos y utilizarlos de este modo con nuestro programa. Aun así sí es imprescindible contar con los siguientes ficheros para obtener resultados a partir de este programa:

un fichero que contenga los genes ortólogos de las dos especies a estudiar en formato fasta o texto
otro fichero con la correspondencia de genes y tránscritos también en formato fasta o texto
un fichero para cada una de las especies en formato gff (éste contendrá identificadores para tránscrito, gen y péptido, estructura exónica y secuencia peptídica entre otra información)

Ortólogos

Tras obtener todos los genes en humano con ortólogos en ratón y viceversa tal como hemos descrito en el punto anterior, hemos modificado ambos ficheros mediante comandos de UNIX de manera que nos quedara un solo fichero que consta de dos columnas: en una se muestran los genes en humano, y en la otra los ortólogos en ratón (este procedimiento se puede llevar a cabo para dos especies distintas, sin necesidad de que sean las que hemos utilizado para la realización de este trabajo)


ENSG00000067646.1       ENSMUSG00000053211.1
ENSG00000169953.2       ENSMUSG00000045336.1
ENSG00000185275.1       ENSMUSG00000047139.1
ENSG00000184895.1       ENSMUSG00000043876.2
ENSG00000172468.2       ENSMUSG00000045336.1
ENSG00000156265.2       ENSMUSG00000025610.2
ENSG00000185808.1       ENSMUSG00000022940.2
ENSG00000171587.4       ENSMUSG00000050272.2
ENSG00000171587.4       ENSMUSG00000040619.1
ENSG00000171587.4       ENSMUSG00000051090.2
ENSG00000171587.4       ENSMUSG00000051267.1
ENSG00000182670.1       ENSMUSG00000040785.2
ENSG00000142173.3       ENSMUSG00000020241.1

Ver fichero

Tránscritos

A partir del fichero de genes ortólogos, separamos las dos columnas en dos ficheros distintos: uno para los genes de humano y otro para los genes de ratón. Una vez hecho esto, volveremos a utilizar EnsMart para obtener los tránscritos correspondientes a los distintos genes. De este modo podremos llegar a obtener dos ficheros distintos, en los que encontramos en una columna los tránscritos y en la otra los genes, uno para cada especie. Una vez tenemos los dos ficheros, los unificamos de manera que queden como a continuación:


ENST00000264955.1 ENSG00000001952.1      
ENST00000226299.2 ENSG00000002549.2      
ENST00000002596.1 ENSG00000002587.1      
ENST00000265522.1 ENSG00000002746.2      
ENST00000265854.2 ENSG00000002822.2      
ENST00000004103.1 ENSG00000002933.1      
ENST00000262820.2 ENSG00000003096.3      
ENST00000322001.1 ENSG00000003096.3      
ENST00000265576.2 ENSG00000003147.4      
ENSMUST00000025370.2 ENSMUSG00000024493.2
ENSMUST00000025374.1 ENSMUSG00000024497.1
ENSMUST00000025375.2 ENSMUSG00000024498.2
ENSMUST00000052934.2 ENSMUSG00000024498.2
ENSMUST00000025377.2 ENSMUSG00000024500.2
ENSMUST00000069341.1 ENSMUSG00000024500.2
ENSMUST00000025379.1 ENSMUSG00000024501.2
ENSMUST00000070288.1 ENSMUSG00000024501.2
ENSMUST00000025381.1 ENSMUSG00000024503.1

Ver fichero

Péptidos y secuencias peptídicas

Utilizando una vez más los recursos que nos proporciona Ensembl, obtenemos dos ficheros, uno gff y otro fasta, para cada especie, a partir de las listas de identificadores de tránscritos de las que disponíamos para elaborar el fichero anterior


HUMANO: estrucura exónica

Y       EnsEMBL exon    2448676 2448940 .       +       .       gene_id "ENSG00000067646.1"; transcript_id "ENST00000155093.1"; exon_id "ENSE00001334555.1";
Y       EnsEMBL exon    2467080 2467168 .       +       .       gene_id "ENSG00000067646.1"; transcript_id "ENST00000155093.1"; exon_id "ENSE00000891589.3";
Y       EnsEMBL CDS     2467108 2467168 .       +       0       gene_id "ENSG00000067646.1"; transcript_id "ENST00000155093.1"; exon_id "ENSE00000891589.3";
Y       EnsEMBL start_codon     2467108 2467110 .       +       .       gene_id "ENSG00000067646.1"; transcript_id "ENST00000155093.1"; exon_id "ENSE00000891589.3";
Y       EnsEMBL exon    2474245 2474817 .       +       .       gene_id "ENSG00000067646.1"; transcript_id "ENST00000155093.1"; exon_id "ENSE00000652223.1";
Y       EnsEMBL CDS     2474245 2474817 .       +       2       gene_id "ENSG00000067646.1"; transcript_id "ENST00000155093.1"; exon_id "ENSE00000652223.1";
Y       EnsEMBL exon    2488266 2488415 .       +       .       gene_id "ENSG00000067646.1"; transcript_id "ENST00000155093.1"; exon_id "ENSE00000652224.1";
Y       EnsEMBL CDS     2488266 2488415 .       +       2       gene_id "ENSG00000067646.1"; transcript_id "ENST00000155093.1"; exon_id "ENSE00000652224.1";

Ver fichero


HUMANO: secuencia peptídica e identificadores

>ENST00000296205.3|ENSG00000163867.4|ENSP00000296205.3 assembly=NCBI34|chr=1|strand=reverse|peptide translation of coding sequence
QNMNFKYVGRYIKNIAYLFLKITVIQIFHSDLPMPNEKNDAELDSPPSKKKRLGFFQTYDTEYLKVGFIICPGSKESSPR
PQCVICGEILSSENMKPANLSHHLKTKHSELENKPVDFFEQKSLEMECQNSSLKKCLLVEKSLVKASYLIAFQTAASKKP
FSIAEELIKPYLVEMCSEVLGSSAGDKMKTIPLSNVTIQHRIDELSADIEDQLIQKVRESKWFALQIDESSEISNITLLL
CYIRFIDYDCRDVKEELLFCIEMPTQITGFEIFELINKYIDSKSLNWKHCVGLCTDGAASMTGRYSGLKAKIQEVAMNTA
AFTHCFIHRERLVAEKLSPCLHKILLQSAQILSFIKSNALNSRMLTILCEEMGSEHVSLPLHAEVRWISRGRMLKRLFEL
RHEIEIFLSQKHSDLAKYFHDEEWVGKLAYLSDIFSLINELNLSLQGTLTTFFNLCNKIDVFKRKLKMWLKRTQENDYDM
FPSFSEFSNSSGLNMTDITRIIFEHLEGLSQVFSDCFPPEQDLRSGNLWIIHPFMNHQNNNLTDFEEEKLTELSSDLGLQ
ALFKSVSVTQFWINAKTSYPELHERAMKFLLPFSTVYLCDAAFSALTESKQKNLLGSGPALRLAVTSLIPRIEKLVKEKE
*

>ENST00000311990.1|ENSG00000163867.4|ENSP00000311570.1 assembly=NCBI34|chr=1|strand=reverse|peptide translation of coding sequence
MNSSVGDLGVGGCSLWDDPARFIVVPAAYALALGLGLPANVAALAMFIRSGGRLGQALLLYLFNLALVDEFFTLTLQLWL
TYYLGLARRPPATRPGPPTTCPPMRRWSSPRSSACAAAASYAVPGPGRLPAWPGAYGAPRALPAPSPGWRAWPLPAWSTA
GQARGWPPPRWPSRPPSCWCSRPT*

Ver fichero


RATÓN: estructura exónica

10_random_NT_078648     EnsEMBL exon    81887   82026   .       +       .       gene_id "ENSMUSG00000035765.2"; transcript_id "ENSMUST00000039608.2"; exon_id "ENSMUSE00000309539.2";
10_random_NT_078648     EnsEMBL CDS     81887   82026   .       +       0       gene_id "ENSMUSG00000035765.2"; transcript_id "ENSMUST00000039608.2"; exon_id "ENSMUSE00000309539.2";
10_random_NT_078648     EnsEMBL start_codon     81887   81889   .       +       .       gene_id "ENSMUSG00000035765.2"; transcript_id "ENSMUST00000039608.2"; exon_id "ENSMUSE00000309539.2";
10_random_NT_078648     EnsEMBL exon    91738   91790   .       +       .       gene_id "ENSMUSG00000035765.2"; transcript_id "ENSMUST00000039608.2"; exon_id "ENSMUSE00000309523.1";
10_random_NT_078648     EnsEMBL CDS     91738   91790   .       +       1       gene_id "ENSMUSG00000035765.2"; transcript_id "ENSMUST00000039608.2"; exon_id "ENSMUSE00000309523.1";
10_random_NT_078648     EnsEMBL exon    94148   94241   .       +       .       gene_id "ENSMUSG00000035765.2"; transcript_id "ENSMUST00000039608.2"; exon_id "ENSMUSE00000309503.1";
10_random_NT_078648     EnsEMBL CDS     94148   94241   .       +       2       gene_id "ENSMUSG00000035765.2"; transcript_id "ENSMUST00000039608.2"; exon_id "ENSMUSE00000309503.1";
10_random_NT_078648     EnsEMBL exon    95497   95630   .       +       .       gene_id "ENSMUSG00000035765.2"; transcript_id "ENSMUST00000039608.2"; exon_id "ENSMUSE00000401274.1";

Ver fichero


RATÓN: secuencia peptídica e identificadores

>ENSMUST00000027195.1|ENSMUSG00000026034.1|ENSMUSP00000027195.1 assembly=NCBIM32|chr=1|strand=reverse|peptide translation of coding sequence
MRHSKRTYCPDWDERDWDYGTWRSSSSHKRKKRSHSSAREQKRCRYDHSKTTDSYYLESRSINEKAYHSRRYVDEYRNDY
MGYEPGHPYGEPGSRYQMHSSKSSGRSGRSSYKSKHRSRHHTSQHHSHGKSHRRKRSRSVEDDEEGHLICQSGDVLSARY
EIVDTLGEGAFGKVVECIDHKVGGRRVAVKIVKNVDRYCEAAQSEIQVLEHLNTTDPHSTFRCVQMLEWFEHRGHICIVF
ELLGLSTYDFIKENSFLPFRMDHIRKMAYQICKSVNFLHSNKLTHTDLKPENILFVKSDYTEAYNPKMKRDERTIVNPDI
KVVDFGSATYDDEHHSTLVSTRHYRAPEVILALGWSQPCDVWSIGCILIEYYLGFTVFPTHDSREHLAMMERILGPLPKH
MIQKTRKRRYFHHDRLDWDEHSSAGRYVSRRCKPLKEFMLSQDAEHELLFDLIGKMLEYDPAKRITLKEALKHPFFYPLK
KHT*

>ENSMUST00000040132.2|ENSMUSG00000038242.2|ENSMUSP00000046541.2 assembly=NCBIM32|chr=1|strand=forward|peptide translation of coding sequence
DPIQLLFYVNGQKVVEKNVDPEMMLLPYLRKNLRLTGTKYGCGGGGCGACTVMISRYNPSTKAIRHHPVNACLTPICSLH
GTAVTTVEGLGNTRTRLHPIQERIAKCHGTQCGFCTPGMVMSMYALLRNHPEPTLDQLTDALGGNLCRCTGYRPIIDACK
TFLVVTELSPENKRYYDDNFCHFLFLKTSPELFSEEEFLPLDPTQELIFPPELMRMAEESQNTVLTFRGERTTWIAPGTL
NDLLELKMKHPSAPLVIGNTYLGLHMKFTDVSYPIIISPARILELFVVTNTKQGLTLGAGLSLTQVKNVLSDVVSRLPKE
KTQIYCALLKQLKTLAGQQIRNVAVGGHIISRLPTSDLNPILGIGNCILNVASTDINGKAVQVTCLSFLGPNHSETWLFI
LKEWFLSPQREFVSAFRQAQCHQNALPDVNAGMRVLFREGTDVIEELSIAYGGVGPTTVSAQRSCQQLLGRRWNALMLDE
ACRLLLDEVSLPGSALGGKVEFRRTLIVSLFFKFYLEVLQELKADQKLPPESTVSALGDSDRCSHTRSWTHIDSHQPLQD
PVGRPIMHLSGLKHATGEAVFCDDIPRVDKELFMALVTSTRAHARIISIDSSEVLDLPGVVDVITAEDIPGNNGEEDDKL
LAVDKVLCVGQVICAVVAETDVQAKRATEKIKITYEDLKPVIFTIEVSWAAPCAPGVLLHLPLTGTVHVGGQEHFYMETQ
RVLVIPKTEDKELDMYVSTQDPAHVQKTVSSTLNIPISRITCHVKRVGGGFGGKVGRPAVFGAIAAVGAVKTGHPIRLVL
DREDDMLITGGRHPLFAKYKVSATSEVIKMPHFVTEFLVLKLENAYKIRNLRLRGRACMTNLPSNTAFRGFGFPQGALVT
ESCITAVAAKCGLPPEKIREKNMYKTVDKTIYKQAFNPDPLIRCWNECLDKSSFHIRRTRVDEFNKKSYWKKRGIAIVPM
KFSVGFAATSYHQAAALVHIYTDGSVLVAHGGNELGQGIHTKMLQVASRELKIPLSYLHICETSTTTVPNTIATAASVGA
DVNGRAVQNACQILLKRLEPVIKKNPEGTWRDWVEAAFEKRISLSATGYFRGYKAFMDWEKGEGDPFPYYVYGAACSEVE
IDCLTGAHKKIRTDIVMDACCSLNPAIDIGQIEGAFIQGMGLYTTEELLYSPEGVLYSRSPDKYKIPTVTDVPEQFNVSL
LPSSQTPLTLYSSKGLGESGMFLGSSVFFAIVDAVAAARRQRDIAEDFTVKSPATPEWVRMACADRFTDMV

Ver fichero

Elaboración del programa

Introducción de datos

El primer punto en la elaboración del programa pasa por introducir los datos iniciales y declarar las variables necesarias:


print "enter the gene id or the transcript id: \n";
my $id = < STDIN >;
chomp ($id);

print "enter the organism: \n";
my $especie = < STDIN >;
chomp ($especie);

print "enter whether your sequence is a gene or a transcript: \n";
my $tog = < STDIN >;
chomp($tog);

Programa

Objetivo

Ficheros

Ortólogos

Tránscritos

Péptidos y secuencias peptídicas

Elaboración del programa

Introducción de datos

Relación gen - tránscrito

Obtención del gen ortólogo

Relación tránscrito - gen ortólogo

Pasos previos al alineamiento

Alineamiento de las secuencias peptídicas

Estudio de la conservación de tránscritos ortólogos