Iron Response ElementS
MÉTODOS, PROCEDIMIENTO Y RESULTADO
BÚSQUEDA EN UNA BASE DE DATOS MAYOR
Tras
haber obtenido los patrones para los diferentes tipos de proteinas quisimos
correrlos sobre un conjunto de secuencias mucho más amplio, más concretamente
sobre la base de datos inicial de la que sacamos las secuencias originales (las
de ensayo y las test). Este paso nos ayudaría a saber si el patrón resulta
altamente estricto o no.
Primeramente, bajamos la base de datos UTR y la descomprimimos. Ésta se
encontraba organizada por grupos o tipos de organismos y en función de
secuencias 5' y 3' para cada uno de ellos. De todos los organismos tans olo
tomamos los que integraban los siguientes grupos: humanos, invertebrados, mamíferos, vertebrados
y roedores.
Seleccionamos al azar secuencias de estos grupos utilizando su número de acceso
(AC). Como para poder correr los patrones necesitamos un formato concreto fue
necesario convertilas a formato Fasta.
Creamos dos ficheros:
-
Archivo 5'db: contenía 200 secuencias 5'UTR de cada uno de los subgrupos antes
mencionados (1000 secuencias)
- Archivo 3'db: contenía 200 secuencias 3'UTR de cada uno de los subgrupos antes
mencionados (1000 secuencias)
Estos dos archivos simulaban una pequeña base de datos de secuencias UTR, así
que sobre las 3' podríamos correr el patrón de la tansferrina y sobre las 5' el
de la ferritina. Sorprendentemente no obtuvimos ningún resultado. Esto
corroboraba que nuestro patrón era realmente estricto y que para poder hallar
alguna secuencia, al menos las originales, debíamos generar dos nuevos archivos
con un número mucho mayor de secuencias:
- 5'db_2:
todas las secuencias 5'UTR de la base de datos bajada y descomprimida
anteriormente.
- 3'db_2: todas las secuencias 3'UTR de la base de datos bajada y descomprimida
anteriormente.
Como hicimos con la base de datos más reducida, corrimos el patrón de la
transferrina sobre el fichero 3' y el de la ferritina sobre el 5'. En este caso
sí obtuvimos secuencias, pero ninguna de ellas correspondían a las que habíamos
extraído y a partir de las cuales habíamos generado los patrones. En ese momento
nos dimos cuenta que no debíamos haber utilizado el AC sino el ID (número de
identificación). Fue necesario modificar las secuencias
substituyendo el AC por el ID.
Volvimos a correr los patrones de transferrina y ferritina nuevamente pero sobre
la base de datos mayor modificada. Los resultados fueron los siguientes:
-
Obtuvimos todas las secuencias originales de ferritinas y transferinas (tanto
las de ensayo como las test) y,
- Un nuevo grupo de secuencias: 11
secuencias de ferritinas y 10 de
transferrinas
(en este último caso tan sólo eran dos secuencias diferentes pero con 5 IREs
cada una). Buscamos las nuevas secuencias en la base de datos EMBL y comprobamos
que todas tenían IREs confirmados.
Para concluir el análisis sobre la base de datos quisimos saber si las nuevas
secuencias eran realmente positivas. Para ello corrimos el patrón universal de
los IREs sobre ellas. Todas las secuencias resultaron ser verdaderos IREs.