En este módulo partimos de la secuencia del genoma de Meleagris gallopavo i de un multifasta que contiene todas las selenoproteínas de SelenoDB. A las selenoproteínas les quitamos los caracteres no alfanuméricos y sustituímos las Us por Xs. En primer lugar, hacemos un tblastn de todas estas selenoproteínas contra el genoma de M. gallopavo. En un inicio tenemos un hit para cada exón pero parseamos el output del blast para quedarnos solamente con el inicio y el final de la región del genoma que ha dado homología con cada proteína (candidates). Hacemos fastasubseq para cada una de las regiones dando un margen de 15kb por ambos lados. Vemos que existen hits redundantes por que hay proteínas homólogas y parálogas que dan hit en la misma región del genoma. Para eliminar esta redundancia agrupamos todas las proteínas en función de la región del genoma en la que dan hit. De este modo pasamos de 331 hits a 36 regiones candidatas a albergar una selenoproteína (fselenoprots). Ademas añadimos una columna con la familia a la que pertenece cada selenoproteína (founselenoprots). Hacemos un fastafetch para cada proteína que nos ha dado hit.
Para ver el mapa conceptual del módulo y el BASH script pincha aquí
En este módulo partimos de las regiones candidatas a contener selenoproteínas y usamos las selenoproteínas de selenodb como query para predecir la secuencia de las posibles selenoproteínas con exonerate y genewise. Para exonerate usamos las selenoproteínas con X en vez de U y con genewise usamos las selenoproteínas que tienen U. Usamos la variable $trev que informa sobre la orientación del hit de tblastn para hacer la predicción en la orientación pertinente. Cambiamos el nombre del output de exonerate y de genewise para que contengan el nombre del programa y el id de la proteína de selenodb que ha usado como query junto con el cromosoma de la región. También ejecutamos SelenoProfiles a partir del genoma.
Para ver el mapa conceptual del módulo y el BASH script pincha aquí
En este módulo hacemos un alineamiento múltiple de todas las proteínas de selenodb que han dado hit en una misma región del genoma. También hacemos pairwise alignments de las predicciones de genewise y exonerate con su query para intentar escoger cual es la proteína más parecida y que software de predicción da un mejor resultado. Esta decisión se basa en el SCORE del pairwise alignment y ya comentaremos en la discusión que no siempre da buenos resultados. Otra opción sería escoger la predicción más larga pero en este caso pierdes información sobre el grado de homología de las distintas proteínas.
Para ver el mapa conceptual del módulo y el BASH script pincha aquí
En este módulo hacemos una búsqueda de elementos secis en una región de 10kb a partir del extremo 3' de las mejores predicciones.
Para ver el mapa conceptual del módulo y el BASH script pincha aquí
En este módulo comparamos nuestros resultados con los resultados de SelenoProfiles. Hacemos una lista con los resultados contenidos en la carpeta output. Nuevamente nos basamos en la posición en el genoma para encontrar las coincidencias. Esto nos permitió identificar un caso en el que SelenoProfiles había predicho una misma región del genoma como dos selenoproteínas distintas. Comparamos la lista de coincidencias con la lista de todos los archivos de la carpeta output de selenoprofiles y pudimos identificar cuatro selenoproteínas que selenoprofiles había predicho y nosotros no.
Para ver el mapa conceptual del módulo y el BASH script pincha aquí
El último módulo consiste en la presentación de los resultados en el formato de página web. Se utilizó una "página template". Para hacer los mapas conceptuales utilizamos la herramienta CmapsTools y guardamos los resultados como página web. Posteriormente tubimos que integrar estos fragmentos de código en nuestra página web y adaptar los enlaces para que se abrieran en un pop up (utilizando el lenguaje JavaScript1.2). A continuación sólo detallaremos algunos procesos de automatización parcial de la elaboración de los protein reports, que posteriormente fueron revisados manualmente.
Para ver el BASH script pincha aquí
Para ejecutar todos los módulos con cualquier genoma, hay que descargarse la carpeta de perls, descomprimirla en una carpeta en home que se llame perlscripts y el genoma y selenodb.fa tienen que estar en la carpeta home también. Este método ha sido desarrollado para un genoma que tenía la secuencia ensamblada en cromosomas.
cab.pie.pl........................................abrir en ventana
diccionari.pl....................................abrir en ventana
find_ini.pl........................................abrir en ventana
genewisepep.pl.............................abrir en ventana
join.pl...............................................abrir en ventana
locateselenoprots.pl......................abrir en ventana
parse.pl...........................................abrir en ventana
removech.pl....................................abrir en ventana
renameexonerate.pl......................abrir en ventana
selectbestscore.pl..........................abrir en ventana
selenoinfo.pl....................................abrir en ventana
t_coffee.pl.........................................abrir en ventana
UtoX.pl..............................................abrir en ventana
web.positions.pl..............................abrir en ventana
Para descargar una carpeta comprimida con los archivos de todos los perlscripts pulsa en el enlace: Download