Identificació de repeticions d'aminoàcids en proteïnes

Identificació de repeticions d'aminoàcids en proteïnes
Material i mètodes

En primer lloc vam crear un programa en Perl que ens permetés trobar repeticions d'aminoàcids en proteïnes i, així, poder comparar la distribució de les repeticions en quatre grups de proteïnes que pertanyen a quatre classes funcionals (segons les anotacions de Gene Ontology):

DNA binding
Oxidoreductase activity
Transmembrane receptor activity
Protein binding

Les diferents dades de les quatre classes funcionals van ser obtingudes de la base de dades Ensembl (EnsMart).
A continuació a partir dels quatre arxius inicials, un per cada classe funcional, en vam derivar un altre arxiu que només contingués les proteïnes humanes que tenien proteïnes homòlogues en ratolí. Els primer arxius ens han servit per calcular i comparar les repeticions d'aminoàcids entre els diversos grups funcionals mentre que els segons arxius ens han servit per comparar el número de repeticions entre les dues espècies i com ho podem relacionar amb el tant per cent d'identitat i amb el quocient entre la tasa de substitució no sinònima i la sinònima entre els diferents gens homòlegs. Per tal de crear aquests arxius vam utilitzar la comanda EGREP de Linux:

EGREP 'ENSMUSP' nomdel fitxer.txt > nom_del_nou_fitxer.txt

Un cop ja teníem els diferents arxius vam crear dos programes per tal d'extreure les seqüències d'un fitxer en format FASTA del servidor i crear diferents arxius amb els identificadors i les seqüències pertinents:

Programa per extreure les seqüències d'humà
Programa per extreure les seqüències dde ratolí

Amb aquests arxius amb les seqüències de les proteïnes d'interès vam córrer el programa creat per obtenir la compilació de repeticions d'aminoàcids. A continuació vam manipular els fitxers ontinguts amb diferents comandes de Unix (egrep, cut, sort i uniq) per tal d'aconseguir fitxers amb els aminoàcids repetits i quants cops es repetien:

EGREP 'ENSP' nomdelfitxer | cut -f2 | sort | uniq -c | wc (per saber quins aminoàcids es repeteixen i quants cops)
EGREP 'ENSMUSP' nomdelfitxer | cut -f2 | sort | uniq -c | wc (pels arxius de ratolí)
(...)

Per tal de realitzar els gràfics dels diversos grups funcionals vam utilitzar l'Excel de Windows ja que ens permetia manipular més fàcilment les dades obtingudes a partir del programa, que no pas el paquet R de Linux.