MATERIAL I MÈTODES

Abans de res, comentar que aquest treball es desenvolupā a partir del guió que se'ns facilitā, tot i que s'han fet alguns canvis, entre ells, destacar que al programa per a contar repeticions no es varen seguir les indicacions del guió.

El primer pas consistí en obtenir els 4 genomes que se estudiaven: Homo sapiens, Gallus gallus, Tetraodon nigroviridis i Fugu rubripes. Aquestes genomes s'obtingueren del servidor Persy de la facultat. El seu enllaį respectiu:

  • /disc8/genomes/T.rubripes/ensembl/Fugu_rubripes.FUGU2.dec.pep.fa.gz
  • /disc8/genomes/G.gallus/ensembl/Gallus_gallus.WASHUC1.dec.pep.fa.gz
  • /disc8/genomes/H.sapiens/ensembl/Homo_sapiens.NCBI35.dec.pep.fa.gz
  • /disc8/genomes/T.nigroviridis/ensembl/Tetraodon_nigroviridis.TETRAODON7.dec.pep.fa.gz
    Un cop foren obtinguts es descomprimiren amb l'ordre "gunzip" d'UNIX.

    Desprès es varen obtenir els identificadors de les proteïnes que ens interessaven a cada cas. Això es féu amb l'opció EnsMart de la web d'Ensembl, d'on es varen triar els següents camps indicats al guió:

  • Ensembl Gene ID
  • Description
  • Ensembl Peptide ID
  • % GC content

    Per a l'apartat de proteïnes humanes conservades també en les altres tres espècies, s'extragueren els camps:

  • Species Ensembl Gene ID
  • Species Ensembl Peptide ID

    Per a l'apartat 10 del guió (malalties humanes) es cercà el seu codi identificatiu peptídic a l'apartat "Search" d' ensembl, tot triant el camp "gene" i introduint-hi el seu identificador gènic (del guió).

    Llavors, férem un programa en Perl extreureseq.pl que reconegués els codis de la proteïna en cada cas i els busqués al fitxer de tot el genoma. Així, aconseguíem les seqüències de les proteïnes que es requeria en cada cas. Tot plegat es guardava a un fitxer amb aquest aspecte:


    >Codi d'Ensembl de cada proteïna (diferent segons l'espècie)
    AFGSSGSSGSGSS...(seqüència peptídica de cada proteïna)

    Un cop obtingut el fitxer amb les seqüències de les proteïnes a analitzar a cada situació, es féu un segon programa en perl contarepeticions.pl que llegís les seqüències i fos trobant les repeticions de 5 o més còpies seguides de cada aminoàcid. El fitxer tenia aquest aspecte:

         CODI PROT           LONGITUTPROT   REPSI/NO    AA    NCòpies
    ENSP0000XXXXA       150      SI       F    6
    ENSP0000XXXXB       300      SI       T    11
    ENSP0000XXXXB       252      SI       S    7
    ENSP0000XXXXC       700      NO
    ENSP0000XXXX

    Per acabar, per a poder afegir al fitxer amb les repeticions per cada proteïna el contingut en GC respectiu, es feren servir les comandes "cut", "sort", "uniq" i "join" d'UNIX.

    Per a fer l'anàlisi estadística dels resultats es feren servir els programes Excel i SPSS.



  • CONTINGUTS DE LA WEB

    Urko Martinez Marigorta & Ixabel Mendizabal Ezeizabarrena