MATERIALS I MÈTODES


Extracció de seqüències

En primer lloc, per tal d'analitzar les seqüències de proteïnes, vam haver d'extreure les dades necessàries de la base de dades de l'ENSEMBL. Dins de la web d'ENSEMBL, vam utilizar l'EnSmart. Volíem la informació de les següents espècies:

Homo sapines
Gallus gallus
Fugu rubripes
Tetraodon nigroviridis

El fitxer de sortida que vam obtenir ens interessava que tingués els següents camps:

Ensembl Gene ID
Description
Ensemble Peptide ID
%GC content

NOTA: en la opció del filtre vam desseleccionar la opció Limit to (uncheck for entire genome).
L'arxiu de sortida que vam obtenir, tenia el següent aspecte:

Ensembl Gene ID Description Ensembl Peptide ID % GC content
ENSG00000198888.1 NADH-ubiquinone oxidoreductase chain 1 (EC 1.6.5.3). [Source:Uniprot/SWISSPROT;Acc:P03886] ENSP00000354687.1q 47

El següent bloc de seqüències que ens interessava seleccionar eren les proteïnes exclusivament humanes, o de les altres espècies esmentades. Per una altra banda, ens interessava obtenir un altre fitxer amb les proteïnes humanes conservades en les altres tres espècies.
Finalment vam extreure una llista dels segünts gens humans involucrats en malalties:

locus disease Ensembl_Gene_ID
CACNA1A spinocerebellar ataxia 6 ENSG00000141837
DRPLA dentatorubro-pallidolusyan atrophy ENSG00000111676
MJD Majado-Joseph disease ENSG00000066427
SCA1 spinocerebellar ataxia 1 ENSG00000124788
SCA7 spinocerebellar ataxia 7 ENSG00000163635
TBP spinocerebellar ataxia 17 ENSG00000112592

Les seqüències de proteïnes les vam obtenir del servidor persy i són les següents:

/disc8/genomes/T.rubripes/ensembl/Fugu_rubripes.FUGU2.dec.pep.fa.gz
/disc8/genomes/G.gallus/ensembl/Gallus_gallus.WASHUC1.dec.pep.fa.gz
/disc8/genomes/H.sapiens/ensembl/Homo_sapiens.NCBI35.dec.pep.fa.gz
/disc8/genomes/T.nigroviridis/ensembl/Tetraodon_nigroviridis.TETRAODON7.dec.pep.fa.gz

Un cop recopilades totes aquestes dades, vam poder procedir a escriure els diferents programes necessaris i analitzar els resultats.

Descripció dels programes

Vam haver de fer dos programes en Perl:
  • programa per seleccionar les proteïnes d'interés. Les proteïnes que ens interessaven es troben als fitxers extrets de l'Ensembl. Aquest fitxer i el fitxer on es troben les seqüències en format FASTA tenen l'identificador en comú. Gràcies a aquest fet, vam poder realitzar el programa que ens permetia correlacionar els identificadors que ens interessaven amb la seqüència de la proteïna. Aquest programa el vam realitzar per cadascuna de les espècies, ja que el codi de l'identificador és diferent depenent de l'espècie. A continuació trobem els diferents programes:
    L'output d'aquest programa té el següent format (format FASTA):

    >ENSP00000317668 pep:known chromosome:NCBI35:1:4274:19433:-1 gene:ENSG00000146556 transcript:ENST00000326632
    MGAVCTSGARSERTMTPVRMQHSLAGQTYAVPFIQPDLRREEAVQQMADALQYLQKVSGD
    IFSRWVEQSRSQVQAIGEKVSLAQAKIEKIKGSKKAIKVFSSAKYPAPGRLQEYGSIFTG
    AQDPGLQRRPRHRIQSKHRPLDERALQEKLKDFPVCVSTKPEPEDDAEEGLGGLPSNISS
    VSSLLLFNTTENLGKKYVFLDPLAGAVTKTHVMLGAETEEKLFDAPLSISKREQLEQQVP
    ENYFYVPDLGQVPEIDVPSYLPDLPGIANDLMYIADLGPGIAPSAPGTIPELPTFHTEVA
    EPLKTYKMGYTPPPPPPPPPPAPEVLASAPPLPPSTAAPVGQGARQDDSSSSASPSVQGA
    PREVVDPSGGWTLLESIRQAGGIGKAKLRSMKERKLEKQQQKEQEQVRATSQGGHLIWGG
    DFCLPVLHGGTAPPSLRHCVLKRLPEKTAHQSIKN

    Aquest fitxer el vam fer servir com a INPUT pel programa que descriurem a continuació.
  • programa per analitzar les repeticions dels aminoàcids. Vam realitzar un programa per detectar repeticions d'amino&agrve;cids, concretament de 5 o més aminoàcids consecutius. Aquest programa té algunes particularitats. A l'hora de detectar que una proteïna té més d'un bloc de repeticions, en el output tindrem l'identificador tantes vegades com blocs de repeticions tingui la proteïna. D'aquesta manera una mateixa proteïna podrà sortir més d'un cop a la llista. L'output obtingut té el següent aspecte:

    >ENSP00000317668 pep:known chromosome:NCBI35:1:4274:19433:-1 gene:ENSG00000146556 transcript:ENST00000326632 SI P 10
    >ENSP00000348979 pep:known chromosome:NCBI35:1:10370:19200:-1 gene:ENSG00000146556 transcript:ENST00000356572 NO

    A continuació vam manipular els outputs obtinguts amb les següents comandes de l'Unix.
    
    	cut -f 1-2 nom del fitxer | sort | uniq | grep SI / NO | wc
    

    Aquesta comanda la vam utlitilizar per tal de tallar la columna de l'identificador i la del SI/NO corresponent a la presència de repeticions, per poder contar el nombre exacte de Sis o de Nos. A diferència de l'output anterior, en el que en el cas de que una proteïna tingués més d'un bloc de repeticions trobàvem l'identificador repetit, amb aquesta comanda només contem si la proteïna té repeticions, independentment de si té més d'un bloc o no.

    Un cop vam haver contat el nombre de Sis i de Nos, vam utilitzar la següent comanda de l'Unix per tal de contar quants blocs de repeticions de cada tipus d'aminoàcid hi ha en totes les proteïnes en general (si una mateixa proteïna té dos blocs de repeticions, es conta conta com a dos blocs). Per exemple:

    
    	cut -f 3 nom del fitxer | sort | grep Q | wc
    


    Aquesta comanda la vam repetir per cadascun dels aminoàcids.
    Amb aquests resultats, vam realitzar un conjunt de gràfics que es comentaran en l'apartat de resultats.

    A continuació volíem ajuntar el fitxer obtingut d'ensembl (on tenim el contingut GC que ens interessa) amb el fitxer de sortida del programa que busca repeticions. Per fer-ho, vam fer els següents passos:

    Per poder-ho fer mitjançant la comanda del UNIX de join, primer havíem d'obtenir els identificadors de les proteïnes amb el mateix format.
    Pel que fa a l'dentificador de l'Ensembl, vam realitzar un programa per treure'ns el punt. Seguidament, al fitxer de sortida que vam obtenir a l'executar el programa de búsqueda de repeticions d'aminoàcids, l'identificador de la proteïna portava un signe ">" al davant, que també vam eliminar amb la següent comanda a la terminal(com que per fer el join necessitàvem que els fitxers estiguessin ordenats, també vam fer un sort):

    
    	sort nomdelfitxer | cut -f 2 -d '>' > fitxer de sortida
    


    Aquests pasos els vam realitzar per tots el fitxers amb els que estàvem tractant de les diferents espècies.
    A continuació volìm realitzar el join, però abans vam fer un sort pels fitxer de sortida obtinguts a l'executar el programa per treure el punt. Conjuntament amb el join vam fer un cut dels camps que ens interessaven del fitxer de sortida: el contingut GC i la presència o absència de repeticions. La comanda va ser la segünt:

    
    	join fitxerensembl fitxerrepeticions | cut -f 2,7 -d ' ' > fitxer de sortida
    


    El fitxer de sortida que vam obtenir tenia el següent aspecte:

    NO 13
    SI 13
    SI 13
    NO 19
    SI 19
    NO 21
    NO 21
    NO 21

    L'únic problema que ens faltava per solucionar per poder analitzar aquestes dades era poder obtenir tots els "SIs" amb el seu contigut GC junts i els "NOs" també junts. Per això vam fer primer un cut (perquè les columnes es trobaven al revés de com les volím) de cadascuna de les columnes per a continuació realitzar un paste en l'altre ordre. Seguidament, vam fer un sort per obtenir els SIs junts i els NOs junts. Aquestes s&oavute;n les comandes:
    
    	cut -f1 -d ' ' nomdelfitxer > fitxer de sortida
    cut -f2 -d ' ' nomdelfitxer > fitxer de sortida2
    paste fitxerdesortida2 fitxerdesortida | sort > fitxer final

    A partir d'aquestes dades vam realitzar els gràfics que s'observen el l'apartat de resultats corresponents a les mitges percentuals del contingut GC de les proteïnes(amb i sense repeticions).

    Torna a la pàgina principal