Aquest treball l'hem realitzat amb el sistema operatiu Linux. Treballàvem des d'un terminal i sempre que començàvem a fer-ho havíem de donar la següent comanda.
Per tal d'obtenir la seqüència hem anat a ENm003 UCSC genome browser. En aquest punt hem pogut veure a quin cromosoma pertany la nostra seqüència (11q). A continuació, hem clicat l'opció "DNA" i "get DNA" i hem obtingut la seqüència que hem guardat en el fitxer apocluster.fa.
Per la posterior caracterització de la seqüència, necessitem passar-la a format tabulat. Comanda1. Un cop tenim la seqüència en forma tabular li introduïm una tabulació entre la primera i la segona columna.
Llargada de la seqüència. Comanda2.
Per tal de poder treballar en els diferents programes que necessitarem, dividim la seqüència en dos trossos de 275.000, de manera que ens quedarà un solapament de 50.000 bases (així ens assegurem que no tallem cap gen). Per poder fer això necessitarem el programa fastachunk. Per cridar aquest programa i fer els talls per obtenir les dues seqüències fem les següents comandes:
Ara buscarem les regions repetitives utilitzant el programa EMBL RepeatMasker Server. Mitjantçant l'opció Browse (anem a l'escriptori sense necessitat de copiar la seqüència). Triem l'opció "fast" i la resta d'opcions les deixem com surten per defecte. A partir d'ara tot ho farem tant per la primera com per la segona divisió de la seqüència, però només ho especificarem per la primera (apo1).
Per visualitzar la distribució de les repeticions utilitzem el programa gff2ps el qual requereix que passem el fitxer repeat.seq.out a format gff. Comanda4.
Per tal d'executar aquest programa, cal que prèviament l'instalem (tot i que també el podríem fer servir des de la seva pàgina web). Per a instalar-lo: comanda5.
Executem el programa. Comanda6.
Hem passat de format gff a ps de manera que podré visualitzar la distribució de les repeticions amb el kview/kghostview. Comanda7.
Per fer la predicció de gens utilitzarem tres programes diferents.
Comencem pel programa IMIM Geneid Server i la seqüència emmascarada en format fasta. Així doncs, posem la seqüència apo1.seq.masked.fa i correm tant en format gff com en format geneid incloent CDS sequences. Un cop tenim els resultats fem "save page as" i en els dos casos posem format "text files". Seguidament obrim els documents i els modifiquem eliminant tot el que hagi quedat en format html.
Segon programa per a la predicció de gens: Overview MIT Genscan Server. De totes maneres, aquest programa no l'hem fet servir des de la web sinó localment, des del shell. Per això necessitem la comanda8. Els resultats obtinguts els passem a format gff amb la comanda9.
Tercer programa FGenesH. Correm el programa amb la seqüència apo1.seq.masked.fa. Cliquem "search"i obtenim la seqüència apo1.masked.fgenesh.txt, la qual passem format gff. Per a fer-ho: comanda10.
Agrupament de les prediccions en format gff. Comanda11.
Ara també agruparem la apo1.seq.out, però primer l'hem de canviar a un format gff d'una sola línia.Per fer-ho: comanda12.
Agrupament de les 3 prediccions més la seqüència apo1 en una sola línia.Comanda13.
Sabem que la localització d'ESTs, suportarà la predicció de gens que haguem fet. Per trobar aquests ESTs hem anat a NCBI Blast i de Nucleotide hem triat MEGABLAST NCBI Megablast . Aleshores hem introduit la seqüència: apo1.seq.masked.fa. En "choose database" hem triat l'opció EST_human i opció "alignment view" pairwise.
Al final de la pàgina, posar format html, treure ticks de les 3 primeres caselles de show, posar el màxim nombre d'aliniaments i descripcions, i finalment layout one window i formatting at the bottom. Si volem el format text, haurem d'anar als resultats de la pàgina web i a la part del final canviar el format a plain text.
Per tal de visualitzar el resultat mitjançant gff2ps hem de canviar el format a gff. Per a fer-ho utilitzem un programa que es diu PARSEMEGABLAST (elaborat per Josep F.Abril). Primer el guardarem, comanda14.
A continuació, l'executarem. Comanda15. Per tal de veure-ho passem de format gff a format ps amb la comanda16. Per veure-ho, comanda17.
Finalment, agrupació de les prediccions de gens amb la informació dels ESTs. Comanda 18.
Fins aquí visualitzem tots els ESTs, però els únics dels que ens donaran evidències de l'existència d'un gen són els spliced ESTs.Per aconseguir això farem servir el programa getsplicedhsp.awk. Per aplicar-lo fem servir la comanda19.
Ara per veure els spliced EST junt amb les prediccions de gens per veure quins d'ells tenen més evidències fem la comanda20.
Per poder visualitzar la predicció de gens només en una direcció (forward) apliquem aquesta comanda21 per treure el frame i a continuació Comanda22.
Validació mitjançant TBlastX .
També tenim gens sense suport d'ESTs, però això no vol dir que no estiguin predits correctament. Una altre manera de validar-los és mitjançant TBLASTX. Aquest programa troba proteïnes homòlogues en Mus musculus que ens puguin donar suport a aquests gens.
Per la seqüència apo1.fa: agafem des del nucleòtid 0 fins el 200.000 (apo1.200.fa).
Per la seqüència apo2.fa, agafem des del 84.000 al 224.000.
El fet que no farem el TBlastX contra tot el genoma de Mus musculus és important. En comptes d'això ho farem contra la regió homòloga a la nostra. Per tal de trobar aquesta regió, caldrà doncs, que previ a l'execució del TBLASTX fem un BLAT. Per a fer-ho cal que dividim les seqüències amb les que farem el TBlastX en subseqüències de 25.000pb, ho fem amb el fastachunk. Anem a USCS genome Browser. Els paràmetres que hem de seleccionar són: genoma de Mus musculus, DNA, Chrm score i la seqüència que introduïm serà la subseqüència de 25.000pb, per tant ho fem per tantes subseqüències com tenim. Per triar els resultats agafarem aquell que tingui major score.
A partir de la informació obtinguda podem dir quin tros del genoma de ratolí ens interessa quedar-nos. Això ho fem mitjançant UCSC genome Browser, ens posem a browser. Cliquem DNA, hem canviat les coordenades ( per apo1:46.240.000-46.400.000 i per apo2:46.030.000-46.170.000 ) que correspon a la nostra regió d'interès.
Seguidament anem a formatting options:
Cliquem get DNA i obtindrem la seqüència del Mus musculus que guardarem com apo1.mouse.fa.
Amb aquesta seqüència i la que hem guardat com apo1.200.fa farem un aliniament local amb TBlastX. Per poder-lo executar farem les següents comandes23-26.
Ara canviem el format del fitxer: comandes27-29.
Per a visionar-ho. Comanda30.
Farem anar el BlastP
Els paràmetres que modifiquem per a fer-ho són:
La resta de paràmetres els deixem com vénen per defecte.
Farem un Blastp per cada gen amb que decidim quedar-nos (la tria l'hem feta a partir dels resultats de l'agrupament dels tres programes de predicció de gens junt amb les evidències dels spliced ESTs).
Per l'apo1 ens quedem amb:
Per l'apo2 (ens quedem els gens validats per ESTs):
Ens ha trobat múltiples seqüències de proteïnes que poden aliniar amb la seqüència query que hem introduit en cada cas. Ens quedem amb la primera que és la que té major score.
Amb INTERPRO, buscarem dominis funcionals:
Per apo1:
Per apo2:
Pel cas de la proteïna desconeguda codificada pel gen 4, el que hem fet és mirar si aquella proteïna estava caracteritzada en algun altre organisme, i l'hem trobada en la Rattus norvegicus. Hem guardat la seqüència en format fasta amb el nom de apo1.gen4.rata.fa. Hem vist que la funció que tenia era la de NF kappa activating protein. Seguidament hem anat a la pàgina del NCBI i hem buscat a gens aquesta proteïna. Hem trobat que en el cromosoma 4 d'humans hi havia una proteïna amb la mateixa funció, i ens hem guardat la seqüència d'aminoàcids en format fasta amb el nom de nfkappa.crom4.fa. A continuació el que farem serà un clustalw per veure si les proteïnes s'assemblen i per tant poder definir la nostra proteïna.
Anem a la pàgina del EMBL-EBI i anem a ClustalW. Enganxem les tres seqüències en format fasta:
Aquestes tres seqüències es van agrupar en el fitxer querys.txt per tal de poder fer un aliniament múltiple amb el ClustalW. Addicionalment vam aliniar-ho dos a dos: la apo1.gen4.rata.fa amb el nfkappa.crom4.fa i nfkappa.crom4.fa amb apo1.masked.geneid.txt.
L'execució del ClustalW ha sigut local. Comanda 31. Hem seguit el passos per fer servir aquest programa i com volíem una Blosum que no ve en el programa, la Blosum 80 i per això hem fet la comanda32.
Els fitxers resultants de cadascun d'aquests apartats es poden consultar a la secció de resultats.
Durant tot el treball hem elaborat un report.
Inici | Resultats |