Señales de splicing
Iniciales: Delimitados por un codón inicial (ATG) y un donnor site.
Internos: Delimitados por un acceptor site y un donnor.
Terminales: Delimitados por un donnor site y un codón STOP (TGA, TAG y TAA).
Singles: Delimitados por un codón inicial y un STOP.
Sesgo codificante
El uso de codones en los exones que se traducen a proteína no es aleatorio, sino que existe un sesgo en el uso de codones concretos en función del organismo. Este hecho puede ser utilizado para puntuar los exones según los codones que utiliza y ver si un exón tiene más posibilidades de ser un exón real en este organismo. Si un exón utiliza más codones de nuestra tabla le daremos una puntuación mayor.
Matriz de donnors:
P0 A C G T 01 0.302 0.483 -0.305 -0.856 02 0.817 -0.667 -0.743 -0.474 03 -1.143 -0.782 1.123 -1.660 04 -9999 -9999 0.000 -9999 05 -9999 -9999 -9999 0.000 06 1.083 -2.097 0.135 -2.246 07 1.032 -1.093 -0.627 -1.111 08 -1.218 -1.479 1.257 -1.534 09 -0.411 -0.358 -0.136 0.492 XX 3
Matriz de acceptors:
P0 A C G T 01 -0.459 0.241 -0.409 0.357 02 -0.495 0.252 -0.540 0.418 03 -0.511 0.192 -0.495 0.456 04 -0.614 0.280 -0.639 0.474 05 -0.775 0.305 -0.642 0.504 06 -0.955 0.304 -0.666 0.557 07 -1.061 0.258 -0.768 0.639 08 -1.176 0.300 -0.788 0.634 09 -1.302 0.238 -0.923 0.723 10 -1.227 0.388 -0.881 0.597 11 -1.049 0.341 -0.773 0.577 12 -1.007 0.460 -0.758 0.458 13 -1.163 0.525 -1.188 0.526 14 -1.311 0.582 -1.401 0.527 15 -1.093 0.414 -1.503 0.657 16 0.030 0.151 -0.117 -0.086 17 -1.860 1.093 -4.269 -0.165 18 0.00 -9999 -9999 -9999 19 -9999 -9999 0.00 -9999 20 -0.064 -0.513 0.732 -0.957 21 -0.075 -0.220 -0.087 0.302 XX 20
Se podrían utilizar matrices diferentes de las anteriores (por ejemplo de otra especie) pero con el mismo formato.
GGG 0.01708 GGA 0.01931 GGT 0.01366 GGC 0.02494 GAG 0.03882 GAA 0.02751 GAT 0.02145 GAC 0.02706 GTG 0.02860 GTA 0.00609 GTT 0.01030 GTC 0.01501 GCG 0.00727 GCA 0.01550 ...
Si quiere bajar el fichero con las proporciones de codones en humanos para utilizarlo en nuestro servidor pulse aquí
predictor internal 101 134 0.123 + 0
Así conseguimos tener en cuenta las tres posibles pautas de lectura de la maquinaria celular sobre la secuencia de DNA.
Los pasos del programa descritos a continuación que empiezan por (3x) se realizan por triplicado para estas tres secuencias que hemos creado.
ATTGCCACTGGTAA 14 ...
Obtenemos dos matrices, la de puntuación de donnors y la de puntuación de acceptors (dependiendo de si damos como parámetros el hash resultante de leer la matriz de donnors o la de acceptors). Esta función utiliza también como parámetros la matriz inicial con los orfs y posiciones y un umbral o puntuación mínima que introducimos como argumento. Lo que obtenemos es una matriz con tres columnas, de este tipo:
orf posicion donnor puntuacion donnor ...
orf posicion acceptor puntuacion acceptor frame ...