Materials
Genomes
Els genomes problema on hem de cercar les proteïnes estan carregats al clúster de l’assignatura, dins de la següent ruta:
/cursos/BI/genomes/protists/2012
Dins de cada carpeta tenim un arxiu multiFASTA on es troba tot el genoma del protist en qüestió. Per concretar, cercarem selenoproteïnes en els següents organismes:
- Fragilariopsis cylindrus
- Phytophthora capsici
- Albugo laibachii Nc14
- Gregarina niphandrodes
- Ichthyophthirius multifiliis strain G5
- Sphaeroforma arctica
- Physarum polycephalum
- Dictyosteilum fasciculatum
- Dictyosteilum discoideum AX4
- Leishmania donovani BPK282A1
- Leishmania tarentolae
- Trypanosoma congoiense
- Crithidia fasciculata
- Astrammina rara
Querys
Amb la finalitat d’obtenir les querys que emprarem, fem servir bases de dades com Seleno DB, NCBI i dbTEU. A més, s’utilitzen diverses seqüències seed, que són la representació de la família SelM i Sep15, obtingudes de Pfam database.
Les querys usades són selenoproteïnes M de:
- Homo sapiens
- Mus musculus
- Aureococcus anophagefferens
- Thalassiosira Pseudonana
- Ectocarpus Siliculosus
- Bos taurus
- Chlamydomonas reinhardtii 1
- Chlamydomonas reinhardtii 2
- Danio rerio
- Gallus gallus
- Ostreococcus tauri
- Pan troglodytes
- Rattus novergicus
- Takifugu rubripes
- Thalassiosira Pseudonana 2
- Xenopus tropicalis
- Ostreococcus lucimarinus
- Xenopus tropicalis (precursor)
- Micromonas pusilla
A més, les selenoproteïnes selM i sep15 formen una superfamília ja que tenen un domini compartit, així doncs, utilitzem com a querys el domini compartit en forma dels següents seeds:
- Seed1. Mus musculus
- Seed2. Danio rerio
- Seed3. Litopenaeus vannamei
- Seed4. Ixodes scapularis 1
- Seed5. Suberites domuncula
- Seed6. Oryza sativa
- Seed7. Rattus novergicus
- Seed8. Ixodes scapularis 2
- Seed9. Drosophila melanogaster
- Seed10. Anopheles gambiae
- Seed11. Chlamydomonas reinhardtii 1
- Seed12. Chlamydomonas reinhardtii 2
Cal mencionar que els seeds representen només una part de la proteïna, per això, en els seeds que tenien un bon hit hem agafat la seqëència sencera per tal de millorar els resultats. Les seqëències completes són:
- Seed5 Complet. Suberites domuncula
- Seed6 Complet. Oryza sativa
- Seed7 Complet. Rattus novergicus
- Seed8 Complet. Ixodes scapularis 2
- Seed9 Complet. Drosophila melanogaster
- Seed10 Complet. Anopheles gambiae
A l’hora de cercar la proteïna SelS, es varen emprar els següents querys:
- Homo sapiens
- Bos taurus
- Callithrix jaccus
- Canis lupus familiaris
- Ciona intestinalis
- Danio rerio
- Equus caballus
- Gallus gallus
- Heterocephalus glaber
- Macaca mulatta
- Pan troglodytes
- Pongo abelii
- Rattus norvegicus
- Salmo salar
- Shistosoma mansoni
- Sus scrofa
- Taeniopygia guttata
- Xenopus (Silurana) tropicalis
Davant els resultats tan dolents de la nostra cerca, vam utilitzar com a query una seqüència fruit d’un PSI-BLAST de totes les SelS conegudes. Anomenarem aquesta query SelSmaster.
Programes
Els programes que emprarem per tal de cercar les nostres proteïnes als genomes problema seran:
1. BLAST:Eina d'alineament local per a seqüències de proteïnes o nucleòtids. Aquest algorisme produeix un alineament amb algunes de les seqüències que tenen paraules, de mida especificada pel paràmetre ktup, en comú amb la seqüència pregunta (query). És un mètode heurístic i prioritza la velocitat davant la sensibilitat, això permet fer cerques en seqüències tan llargues com tot el genoma sencer.
Per tal de realitzar el nostre projecte hem utilitzat tBLASTn, que alinea la seqüència d'aminoàcids contra seqüències de nucleòtids (que tradueix a proteïnes abans de fer l'alineament), BLASTp que alinea aminoàcids contra aminoàcids i BLASTn, que alinea nucleòtids amb nucleòtids.
2. Exonerate:Programa per comparar alineaments. Permet utilitzar diferents models d'alineament, tant amb programació dinàmica com amb variants heurístiques. En el nostre projecte es fa servir per tal de predir l’estructura que donarà el nostre gen i més tard, extreure el cDNA i la seqüència proteica.
Dins del conjunt Exonerate tenim diverses eines, entre les quals hem utilitzat: fastafetch i fastasubseq (per extreure la subseqüència que conté el nostre gen) i fastatranslate (per tal de traduir el cDNA a la seqüència proteica). S’ha de tenir en compte que sempre que fem servir l’eina del fastatranslate haurem d’escollir el frame correcte.
3. FastaseqfromGFF:Programa en PERL dissenyat per tal d’extreure els exons de la seqüència que conté el nostre gen.
4. Genewise:Forma part del paquet Wise2 i s'utilitza per a comparar una única prote&iulm;na contra una única seqüència de DNA genòmic. Permet predir l'estructura de gens. Nosaltres l'hem utilitzat per a extreure els exons dels gens que hem identificat.
5. T-Coffee:T-Coffee (Tree-based Consistency Objective Function for alignment Evaluation) proporciona un mitjà senzill i flexible per generar alineaments múltiples, utilitzant fonts de dades heterogènies.
T-Coffee realitza un alineament progressiu, comparant les seqüències de dues en dues. Aquest tipus d’alineament té com a avantatges la velocitat, la senzillesa i una disminució del nombre d'errors.
6. SecisSearch:Programa de predicció d'elements SECIS que es basa en el programa PatScan, capaç de detectar diferents tipus de patrons en seqüències tant de proteïnes com nucleotídiques, i en el Vienna RNA Package, un programa que prediu estructures secundàries de RNA.
7. Jalview:Programa de visualització d’alineaments. Es farà servir per tal de tenir una representaci´ gràfica més entenedora dels nostres resultats. A més, aquest programa és capaç de transformar els alineaments en arbres filogenètics la qual cosa ens permetrà relacionar les noves proteïnes predites.
8. NetBLAST:Programa online que cerca seqüències similars a la seqüència de la query donada. La query i la base de dades del NCBI poden ser pèptids o àcids nucleics en qualsevol combinació.