Señales de splicing

Iniciales: Delimitados por un codón inicial (ATG) y un donnor site.
Internos: Delimitados por un acceptor site y un donnor.
Terminales: Delimitados por un donnor site y un codón STOP (TGA, TAG y TAA).
Singles: Delimitados por un codón inicial y un STOP.
Sesgo codificante
El uso de codones en los exones que se traducen a proteína no es aleatorio, sino que existe un sesgo en el uso de codones concretos en función del organismo. Este hecho puede ser utilizado para puntuar los exones según los codones que utiliza y ver si un exón tiene más posibilidades de ser un exón real en este organismo. Si un exón utiliza más codones de nuestra tabla le daremos una puntuación mayor.
Matriz de donnors:
P0 A C G T
01 0.302 0.483 -0.305 -0.856
02 0.817 -0.667 -0.743 -0.474
03 -1.143 -0.782 1.123 -1.660
04 -9999 -9999 0.000 -9999
05 -9999 -9999 -9999 0.000
06 1.083 -2.097 0.135 -2.246
07 1.032 -1.093 -0.627 -1.111
08 -1.218 -1.479 1.257 -1.534
09 -0.411 -0.358 -0.136 0.492
XX 3
Matriz de acceptors:
P0 A C G T
01 -0.459 0.241 -0.409 0.357
02 -0.495 0.252 -0.540 0.418
03 -0.511 0.192 -0.495 0.456
04 -0.614 0.280 -0.639 0.474
05 -0.775 0.305 -0.642 0.504
06 -0.955 0.304 -0.666 0.557
07 -1.061 0.258 -0.768 0.639
08 -1.176 0.300 -0.788 0.634
09 -1.302 0.238 -0.923 0.723
10 -1.227 0.388 -0.881 0.597
11 -1.049 0.341 -0.773 0.577
12 -1.007 0.460 -0.758 0.458
13 -1.163 0.525 -1.188 0.526
14 -1.311 0.582 -1.401 0.527
15 -1.093 0.414 -1.503 0.657
16 0.030 0.151 -0.117 -0.086
17 -1.860 1.093 -4.269 -0.165
18 0.00 -9999 -9999 -9999
19 -9999 -9999 0.00 -9999
20 -0.064 -0.513 0.732 -0.957
21 -0.075 -0.220 -0.087 0.302
XX 20
Se podrían utilizar matrices diferentes de las anteriores (por ejemplo de otra especie) pero con el mismo formato.
GGG 0.01708
GGA 0.01931
GGT 0.01366
GGC 0.02494
GAG 0.03882
GAA 0.02751
GAT 0.02145
GAC 0.02706
GTG 0.02860
GTA 0.00609
GTT 0.01030
GTC 0.01501
GCG 0.00727
GCA 0.01550
...
Si quiere bajar el fichero con las proporciones de codones en humanos para utilizarlo en nuestro servidor pulse aquí
predictor internal 101 134 0.123 + 0
Así conseguimos tener en cuenta las tres posibles pautas de lectura de la maquinaria celular sobre la secuencia de DNA.
Los pasos del programa descritos a continuación que empiezan por (3x) se realizan por triplicado para estas tres secuencias que hemos creado.
ATTGCCACTGGTAA 14 ...
Obtenemos dos matrices, la de puntuación de donnors y la de puntuación de acceptors (dependiendo de si damos como parámetros el hash resultante de leer la matriz de donnors o la de acceptors). Esta función utiliza también como parámetros la matriz inicial con los orfs y posiciones y un umbral o puntuación mínima que introducimos como argumento. Lo que obtenemos es una matriz con tres columnas, de este tipo:
orf posicion donnor puntuacion donnor ...
orf posicion acceptor puntuacion acceptor frame
...