Este trabajo ha estado fundmaentalmente basado en la utilización de programas que nos permiten el manejo de las secuencias y de los archivos fasta y multifasta. Además es de remarcar la utilización del sistema UNIX para todo el trabajo, ya que nos permite utilizar la terminal y trabajar de forma más directa con los archivos, que en muchos casos movian cantidades enormes de información.
Un análisis preliminar de la secuencia a simple vista permitió conocer que se trataba de una secuencia multi-FASTA (una colección de fragmentos, también conocidos como contigs, en formato FASTA). El hecho de que la secuencia completa del genoma esté fragmentada es consecuencia del método de secuenciación utilizado (whole genome shotgun).
Se buscó información sobre la especie asignada y si había estudios previos sobre selenoproteínas descubiertas en esta especie (y en especies cercanas) para orientar la investigación.
Se entró en la base de datos SelenoDB para descargar algunas de las secuencias de selenoproteínas descritas hasta el momento. SelenoDB se trata de una base de datos que almacena información acerca de selenoproteínas clasificadas por especies. Además incluye información sobre elementos SECIS y proteínas relacionadas con la maquinaria de síntesis de las selenoproteínas.
Como la especie humana es la que mayor número de selenoproteínas caracterizadas posee, se decidió comenzar utilizando estas.
A continuación, se decidió explorar las del resto de especies de SelenoDB, más cercanas a la especie asignada, donde la probabilidad de encontrar proteínas homólogas se esperaba que fuese mayor. Entre estas especies se incluyó también el reino protista.
Y finalmente el resto de las selenoproteínas hasta ahora descubiertas en protistas, no descritas en SelenoDB, que fueron proporcionadas por el profesorado.
Una vez instalado el software del BLAST, se realizaron los alineamientos desde la terminal de Linux en línea de comandas, siguiendo el siguiente patrón para cada selenoproteína:
De este modo, se obtuvieron dos alineamientos significativos para dos selenoproteínas con los que se decidió seguir investigando. Gracias al output del genewise se obtuvieron las secuencias peptídicas de dos selenoproteínas putativas en E.dispar: selI y EhSEP2.
Se decidió hacer un protein-BLAST en línea (NCBI protein BLAST) de estas secuencias de selenoproteínas putativas de E.dispar frente a las bases de datos de los organismos de los cuales se había partido. En el caso de la SelI: Homo sapiens y Drosophila melanogaster. En el caso de la EhSEP2: Emiliania huxleyi.
Una vez realizada la búsqueda de selenoproteínas homólogas en el genoma de E. dispar el siguiente objetivo propuesto es la búsqueda de posibles selenoproteínas aún no descritas. Para ello se lleva a cabo la búsqueda de:
Los pasos seguidos se describen a continuación:
Otro enfoque a la hora de encontrar nuevas selenoproteínas no anotadas hasta el momento es buscar el tRNA que transporta la selenocisteína para la traducción de selenoproteínas. Para este objetivo, se procede con la ejecución del programa tRNAscan buscando todos las secuencias predichas de tRNAs y a continuación se identifican tRNAs de Selenocisteína.