MATERIALS I MÈTODES
Extracció de seqüències
En primer lloc, per tal d'analitzar les seqüències de proteïnes, vam haver d'extreure les dades
necessàries de la base de dades de l'ENSEMBL. Dins de la web d'ENSEMBL,
vam utilizar l'EnSmart. Volíem la informació de les següents espècies:
Homo sapines
Gallus gallus
Fugu rubripes
Tetraodon nigroviridis
El fitxer de sortida que vam obtenir ens interessava que tingués els següents camps:
Ensembl Gene ID
Description
Ensemble Peptide ID
%GC content
NOTA: en la opció del filtre vam desseleccionar la opció Limit to
(uncheck for entire genome).
L'arxiu de sortida que vam obtenir, tenia el següent aspecte:
Ensembl Gene ID Description Ensembl Peptide ID % GC content
ENSG00000198888.1 NADH-ubiquinone oxidoreductase chain 1 (EC 1.6.5.3). [Source:Uniprot/SWISSPROT;Acc:P03886] ENSP00000354687.1q 47
El següent bloc de seqüències que ens interessava seleccionar eren les proteïnes exclusivament humanes,
o de les altres espècies esmentades.
Per una altra banda, ens interessava obtenir un altre fitxer amb les proteïnes humanes conservades en les altres tres
espècies.
Finalment vam extreure una llista dels segünts gens humans involucrats en malalties:
locus disease Ensembl_Gene_ID
CACNA1A spinocerebellar ataxia 6 ENSG00000141837
DRPLA dentatorubro-pallidolusyan atrophy ENSG00000111676
MJD Majado-Joseph disease ENSG00000066427
SCA1 spinocerebellar ataxia 1 ENSG00000124788
SCA7 spinocerebellar ataxia 7 ENSG00000163635
TBP spinocerebellar ataxia 17 ENSG00000112592
Les seqüències de proteïnes les vam obtenir del servidor persy i són les següents:
/disc8/genomes/T.rubripes/ensembl/Fugu_rubripes.FUGU2.dec.pep.fa.gz
/disc8/genomes/G.gallus/ensembl/Gallus_gallus.WASHUC1.dec.pep.fa.gz
/disc8/genomes/H.sapiens/ensembl/Homo_sapiens.NCBI35.dec.pep.fa.gz
/disc8/genomes/T.nigroviridis/ensembl/Tetraodon_nigroviridis.TETRAODON7.dec.pep.fa.gz
Un cop recopilades totes aquestes dades, vam poder procedir a escriure els diferents programes necessaris i analitzar
els resultats.
Descripció dels programes
Vam haver de fer dos programes en Perl:
- programa per seleccionar les proteïnes d'interés. Les proteïnes que ens
interessaven es troben als fitxers extrets de l'Ensembl. Aquest fitxer i el fitxer on es troben les seqüències en
format FASTA tenen l'identificador en comú. Gràcies a aquest fet, vam poder realitzar el programa que ens
permetia correlacionar els identificadors que ens interessaven amb la seqüència de la proteïna. Aquest
programa el vam realitzar per cadascuna de les espècies, ja que el codi de l'identificador és diferent
depenent de l'espècie. A continuació trobem els diferents programes:
L'output d'aquest programa té el següent format (format FASTA):
>ENSP00000317668 pep:known chromosome:NCBI35:1:4274:19433:-1 gene:ENSG00000146556 transcript:ENST00000326632
MGAVCTSGARSERTMTPVRMQHSLAGQTYAVPFIQPDLRREEAVQQMADALQYLQKVSGD
IFSRWVEQSRSQVQAIGEKVSLAQAKIEKIKGSKKAIKVFSSAKYPAPGRLQEYGSIFTG
AQDPGLQRRPRHRIQSKHRPLDERALQEKLKDFPVCVSTKPEPEDDAEEGLGGLPSNISS
VSSLLLFNTTENLGKKYVFLDPLAGAVTKTHVMLGAETEEKLFDAPLSISKREQLEQQVP
ENYFYVPDLGQVPEIDVPSYLPDLPGIANDLMYIADLGPGIAPSAPGTIPELPTFHTEVA
EPLKTYKMGYTPPPPPPPPPPAPEVLASAPPLPPSTAAPVGQGARQDDSSSSASPSVQGA
PREVVDPSGGWTLLESIRQAGGIGKAKLRSMKERKLEKQQQKEQEQVRATSQGGHLIWGG
DFCLPVLHGGTAPPSLRHCVLKRLPEKTAHQSIKN
Aquest fitxer el vam fer servir com a INPUT pel programa que descriurem a continuació.
programa per analitzar les repeticions dels aminoàcids.
Vam realitzar un programa per detectar repeticions d'amino&agrve;cids, concretament de 5 o més aminoàcids
consecutius. Aquest programa té algunes particularitats. A l'hora de detectar que una proteïna té més
d'un bloc de repeticions, en el output tindrem l'identificador tantes vegades com blocs de repeticions tingui la proteïna.
D'aquesta manera una mateixa proteïna podrà sortir més d'un cop a la llista. L'output obtingut té el
següent aspecte:
>ENSP00000317668 pep:known chromosome:NCBI35:1:4274:19433:-1 gene:ENSG00000146556 transcript:ENST00000326632 SI P 10
>ENSP00000348979 pep:known chromosome:NCBI35:1:10370:19200:-1 gene:ENSG00000146556 transcript:ENST00000356572 NO
A continuació vam manipular els outputs obtinguts amb les següents comandes de l'Unix.
cut -f 1-2 nom del fitxer | sort | uniq | grep SI / NO | wc
Aquesta comanda la vam utlitilizar per tal de tallar la columna de l'identificador i la del SI/NO corresponent a la presència
de repeticions, per poder contar el nombre exacte de Sis o de Nos. A diferència de l'output anterior, en el que en el
cas de que una proteïna tingués més d'un bloc de repeticions trobàvem l'identificador repetit,
amb aquesta comanda només contem si la proteïna té repeticions, independentment de si té més
d'un bloc o no.
Un cop vam haver contat el nombre de Sis i de Nos, vam utilitzar la següent comanda de l'Unix per tal de contar quants blocs de repeticions de cada tipus d'aminoàcid hi ha en totes les proteïnes en general (si una mateixa proteïna té dos blocs de repeticions, es conta conta com a dos blocs). Per exemple:
cut -f 3 nom del fitxer | sort | grep Q | wc
Aquesta comanda la vam repetir per cadascun dels aminoàcids.
Amb aquests resultats, vam realitzar un conjunt de gràfics que es comentaran en l'apartat de resultats.
A continuació volíem ajuntar el fitxer obtingut d'ensembl (on tenim el contingut GC que ens interessa) amb el fitxer de sortida del programa que busca repeticions. Per fer-ho, vam fer els següents passos:
Per poder-ho fer mitjançant la comanda del UNIX de join, primer havíem d'obtenir els identificadors
de les proteïnes amb el mateix format.
Pel que fa a l'dentificador de l'Ensembl, vam realitzar un programa per treure'ns el punt.
Seguidament, al fitxer de sortida que vam obtenir a l'executar el programa de búsqueda de repeticions d'aminoàcids,
l'identificador de la proteïna portava un signe ">" al davant, que també vam eliminar amb la següent comanda a la
terminal(com que per fer el join necessitàvem que els fitxers estiguessin ordenats, també vam fer un sort):
sort nomdelfitxer | cut -f 2 -d '>' > fitxer de sortida
Aquests pasos els vam realitzar per tots el fitxers amb els que estàvem tractant de les diferents espècies.
A continuació volìm realitzar el join, però abans vam fer un sort pels fitxer de sortida obtinguts a
l'executar el programa per treure el punt. Conjuntament amb el join vam fer un cut dels camps que ens interessaven del fitxer de
sortida: el contingut GC i la presència o absència de repeticions. La comanda va ser la segünt:
join fitxerensembl fitxerrepeticions | cut -f 2,7 -d ' ' > fitxer de sortida
El fitxer de sortida que vam obtenir tenia el següent aspecte:
NO 13
SI 13
SI 13
NO 19
SI 19
NO 21
NO 21
NO 21
L'únic problema que ens faltava per solucionar per poder analitzar aquestes dades era poder obtenir tots els "SIs" amb el seu contigut GC junts i els "NOs" també
junts. Per això vam fer primer un cut (perquè les columnes es trobaven al revés de com les volím)
de cadascuna de les columnes per a continuació realitzar un paste en l'altre ordre. Seguidament, vam fer un sort per
obtenir els SIs junts i els NOs junts. Aquestes s&oavute;n les comandes:
cut -f1 -d ' ' nomdelfitxer > fitxer de sortida
cut -f2 -d ' ' nomdelfitxer > fitxer de sortida2
paste fitxerdesortida2 fitxerdesortida | sort > fitxer final
A partir d'aquestes dades vam realitzar els gràfics que s'observen el l'apartat de resultats corresponents a les
mitges percentuals del contingut GC de les proteïnes(amb i sense repeticions).
Torna a la pàgina principal