Antes que nada, comentar que este trabajo se desarrolló a partir del guión que se nos facilitó aunque se han hecho ciertos cambios, entre ellos, destacar que el programa para contar repeticiones no se siguieron las indicaciones del guión.
El primer paso consistió en la obtención de los genomas de los cuatro seres vivos que se estudiaban: Homo sapiens, Gallus gallus, Tetraodon Nigroviridis y Fugu rubripes. Estos genomas se obtuvieron del servidor Persy de la facultad. Su enlace respectivo es:
El siguiente paso fue la obtención de los identificadores de las proteínas que nos interesaban en cada caso. Esto se realizó en la opción EnsMart de la web Ensembl, de donde se obtuvieron los siguientes campos de cada apartado indicado en el guión:
Para el apartado de proteínas humanas conservadas también en las otras tres especies, se añadieron también los campos:
Para el apartado 10 del guión (enfermedades humanas) se buscó su código de identificación peptídica en el apartado "Search" de ensembl, para con el campo "gene" e introduciendo su identificador genético (obtenido del guión).
En esta tesitura, se procedió a hacer un programa en Perl extreureseq.pl que reconociera los códigos de proteína obtenidos para cada caso y los buscara en el fichero genoma entero, de manera que conseguíamos las secuencias de las proteínas requeridas para cada caso. Todo ellos se guardaban en un fichero en el que había en formato Fasta las secuencias de cada proteína, con el siguiente aspecto:
>Código de Ensembl de cada proteína (diferente según la especie)
AFGSSGSSGSGSS...(secuencia peptídica de cada proteína)
Una vez obtenido el fichero con las secuencias de las proteínas a analizar se hizo un segundo programa en Perl contarepeticions.pl que leyera las secuencias y fuese encontrando las repeticiones de 5 o más copias seguidas de cada aminoácido. El fichero obtenido para caso era:
CODIGO PROT LONGITUDPROT REPSI/NO AA NCopias
ENSP0000XXXXA 150 SI F 6
ENSP0000XXXXB 300 SI T 11
ENSP0000XXXXB 252 SI S 7
ENSP0000XXXXC 700 NO
ENSP0000XXXX
Por último, para poder añadir a los ficheros con las repeticiones para cada proteínas el contenido de GC, se usaron las comandas "cut", "sort", "uniq" y "join" de UNIX.
Para el análisis estadístico de los resultados se usaron los programas Excel y SPSS (se trabajó con muestras aleatorias del 10% de los casos para poder trabajar en el mismo fichero).