Materials i mètodes

Materials

Genomes

Els genomes problema on hem de cercar les proteïnes estan carregats al clúster de l’assignatura, dins de la següent ruta:

/cursos/BI/genomes/protists/2012

Dins de cada carpeta tenim un arxiu multiFASTA on es troba tot el genoma del protist en qüestió. Per concretar, cercarem selenoproteïnes en els següents organismes:

  1. Fragilariopsis cylindrus
  2. Phytophthora capsici
  3. Albugo laibachii Nc14
  4. Gregarina niphandrodes
  5. Ichthyophthirius multifiliis strain G5
  6. Sphaeroforma arctica
  7. Physarum polycephalum
  8. Dictyosteilum fasciculatum
  9. Dictyosteilum discoideum AX4
  10. Leishmania donovani BPK282A1
  11. Leishmania tarentolae
  12. Trypanosoma congoiense
  13. Crithidia fasciculata
  14. Astrammina rara

Querys

Amb la finalitat d’obtenir les querys que emprarem, fem servir bases de dades com Seleno DB, NCBI i dbTEU. A més, s’utilitzen diverses seqüències seed, que són la representació de la família SelM i Sep15, obtingudes de Pfam database.

Les querys usades són selenoproteïnes M de:

  1. Homo sapiens
  2. Mus musculus
  3. Aureococcus anophagefferens
  4. Thalassiosira Pseudonana
  5. Ectocarpus Siliculosus
  6. Bos taurus
  7. Chlamydomonas reinhardtii 1
  8. Chlamydomonas reinhardtii 2
  9. Danio rerio
  10. Gallus gallus
  11. Ostreococcus tauri
  12. Pan troglodytes
  13. Rattus novergicus
  14. Takifugu rubripes
  15. Thalassiosira Pseudonana 2
  16. Xenopus tropicalis
  17. Ostreococcus lucimarinus
  18. Xenopus tropicalis (precursor)
  19. Micromonas pusilla

A més, les selenoproteïnes selM i sep15 formen una superfamília ja que tenen un domini compartit, així doncs, utilitzem com a querys el domini compartit en forma dels següents seeds:

Cal mencionar que els seeds representen només una part de la proteïna, per això, en els seeds que tenien un bon hit hem agafat la seqëència sencera per tal de millorar els resultats. Les seqëències completes són:

A l’hora de cercar la proteïna SelS, es varen emprar els següents querys:

  1. Homo sapiens
  2. Bos taurus
  3. Callithrix jaccus
  4. Canis lupus familiaris
  5. Ciona intestinalis
  6. Danio rerio
  7. Equus caballus
  8. Gallus gallus
  9. Heterocephalus glaber
  10. Macaca mulatta
  11. Pan troglodytes
  12. Pongo abelii
  13. Rattus norvegicus
  14. Salmo salar
  15. Shistosoma mansoni
  16. Sus scrofa
  17. Taeniopygia guttata
  18. Xenopus (Silurana) tropicalis

Davant els resultats tan dolents de la nostra cerca, vam utilitzar com a query una seqüència fruit d’un PSI-BLAST de totes les SelS conegudes. Anomenarem aquesta query SelSmaster.

Programes

Els programes que emprarem per tal de cercar les nostres proteïnes als genomes problema seran:

1. BLAST:

Eina d'alineament local per a seqüències de proteïnes o nucleòtids. Aquest algorisme produeix un alineament amb algunes de les seqüències que tenen paraules, de mida especificada pel paràmetre ktup, en comú amb la seqüència pregunta (query). És un mètode heurístic i prioritza la velocitat davant la sensibilitat, això permet fer cerques en seqüències tan llargues com tot el genoma sencer.

Per tal de realitzar el nostre projecte hem utilitzat tBLASTn, que alinea la seqüència d'aminoàcids contra seqüències de nucleòtids (que tradueix a proteïnes abans de fer l'alineament), BLASTp que alinea aminoàcids contra aminoàcids i BLASTn, que alinea nucleòtids amb nucleòtids.

2. Exonerate:

Programa per comparar alineaments. Permet utilitzar diferents models d'alineament, tant amb programació dinàmica com amb variants heurístiques. En el nostre projecte es fa servir per tal de predir l’estructura que donarà el nostre gen i més tard, extreure el cDNA i la seqüència proteica.

Dins del conjunt Exonerate tenim diverses eines, entre les quals hem utilitzat: fastafetch i fastasubseq (per extreure la subseqüència que conté el nostre gen) i fastatranslate (per tal de traduir el cDNA a la seqüència proteica). S’ha de tenir en compte que sempre que fem servir l’eina del fastatranslate haurem d’escollir el frame correcte.

3. FastaseqfromGFF:

Programa en PERL dissenyat per tal d’extreure els exons de la seqüència que conté el nostre gen.

4. Genewise:

Forma part del paquet Wise2 i s'utilitza per a comparar una única prote&iulm;na contra una única seqüència de DNA genòmic. Permet predir l'estructura de gens. Nosaltres l'hem utilitzat per a extreure els exons dels gens que hem identificat.

5. T-Coffee:

T-Coffee (Tree-based Consistency Objective Function for alignment Evaluation) proporciona un mitjà senzill i flexible per generar alineaments múltiples, utilitzant fonts de dades heterogènies.

T-Coffee realitza un alineament progressiu, comparant les seqüències de dues en dues. Aquest tipus d’alineament té com a avantatges la velocitat, la senzillesa i una disminució del nombre d'errors.

6. SecisSearch:

Programa de predicció d'elements SECIS que es basa en el programa PatScan, capaç de detectar diferents tipus de patrons en seqüències tant de proteïnes com nucleotídiques, i en el Vienna RNA Package, un programa que prediu estructures secundàries de RNA.

7. Jalview:

Programa de visualització d’alineaments. Es farà servir per tal de tenir una representaci´ gràfica més entenedora dels nostres resultats. A més, aquest programa és capaç de transformar els alineaments en arbres filogenètics la qual cosa ens permetrà relacionar les noves proteïnes predites.

8. NetBLAST:

Programa online que cerca seqüències similars a la seqüència de la query donada. La query i la base de dades del NCBI poden ser pèptids o àcids nucleics en qualsevol combinació.