Resultados

Finalmente hemos obtenido distintos outputs para cada programa. Como hemos comentado en el apartado de materiales y métodos, el primer programa nos proporcionará una primera clasificación del fichero inicial, (all_alignments) colocando en un primer grupo las secuencias consenso para los splice site, y un segundo grupo con las no consenso. Podemos ver estos dos nuevos ficheros a continuación:

Grupo 1: secuencias consenso
Grupo 2: secuencias no-consenso

Llegado este punto, nos interesa identificar nuevas subsecuencias conservadas de longitud k, para ello utilizaremos el programa2. En nuestro caso lo ejecutamos para valores de k igual a 3, 4 y 5. De manera que al final acabaremos teniendo los siguientes outputs:

Motivos de k=4 en el grupo de secuencias consenso
Motivos de k=5 en el grupo de secuencias consenso
Motivos de k=6 en el grupo de secuencias consenso

Motivos de k=4 en el grupo de secuencias no-consenso
Motivos de k=5 en el grupo de secuencias no-consenso
Motivos de k=6 en el grupo de secuencias no-consenso

Una vez hemos podido encontrar las subsecuencias debemos analizar si estas son características del grupo no consenso, o de lo contrario aparecen también en el consenso. Por lo tanto, lo que debemos hacer ahora es comparar las subsecuencias encontradas para cada uno de los dos grupos y separar aquellas secuencias características del grupo 2. Para conseguir nuestro objetivo utilizaremos el tercer y último programa. Este nos clasificará toda la información en dos grupos para cada longitud de subsecuencia, uno que contiene las subsecuencias únicas y otro para las que aparecen tanto en aquellas secuencias con motivos de splicing consenso como las que no. De manera que acabamos con seis nuevos archivos que son:

subsecuencias de longitud 4 en secuencias consenso y no-consenso
subsecuencias de longitud 5 en secuencias consenso y no-consenso
subsecuencias de longitud 6 en secuencias consenso y no-consenso

subsecuencias de longitud 4 en secuencias no-consenso
subsecuencias de longitud 5 en secuencias no-consenso
subsecuencias de longitud 6 en secuencias no-consenso

La información contenida en estos archivos está resumida en las siguientes tablas. En las primeras tres tablas representamos aquellos patrones que aparecen solamente en aquellas secuencias que presentan patrones de splicing no consenso.Tal y como podemos observar los motivos que aparecen con más frecuecia son: ACTAAC y CTAAC, 20 y 26 respectivamente.

A continuación vemos una relación de aquellas subsecuencias que aparecen tanto en el grupo de secuencias con splice sites consenso, como en las no consenso. Aunque podemos observar que en algunos casos las frecuencias de aparición son parecidas, también vemos que algunas de las subsecuencias tienen diferencias notables en su ocurrencia.

Como vemos, en las dos primeras tablas hay algunos motivos que están sobrerepresentados en el grupo de secuencias no-consenso. Por ejemplo la subsecuencia CTAA aparece 33 veces en el grupo 2 y 3 en el grupo 1.

LEYENDA: