Bases de Dades

El primer que necessitem abans de començar amb la recerca de selenoproteïnes en genomes de protistes és trobar les seqüències tan dels genomes com de les selenoproteïnes.

El genomes ens els han proporcionat els supervisors de l'assignatura, i els podíem trobar en el següent path: /cursos/BI/genomes/protists.

Pel que fa a les seqüències de les selenoproteïnes, en el cas de SelS la vam buscar a la base de dades Selenodb, en canvi, la de Sel1 també ens va ser proporcionada pels supervisors.


Alineament de Seqüències

l Basic Local Alignment Search Tool (BLAST) troba regions locals de similitud entre dues seqüències. El programa compara les seqüències de nucleòtids o proteïnes a bases de dades de seqüències i calcula la significació estadística dels “matches”. El BLAST pot utilitzar-se per inferir les relacions funcionals i evolutives entre les seqüències, així com ajudar a identificar els membres de les famílies de gens.

TblastN és un flavour del BLAST. Ens permet comparar una seqüència de proteïna (query) amb una seqüència nucleotídica de la base de dades que es tradueix en tots els marcs de lectura.La seqüència proteica que usem és la de la selenoproteïna d'interès, Sel1 o SelS. Com a seqüència nucleotídica, usem els genomes de protistes proporcionats.

Per tal de realitzar la recerca de les selenoproteïnes en tots el genomes de protistes el més ràpida i eficientment possible, vam emprar un programa dinàmic en llenguatge bash. Aquest programa, mitjançant una ordre for ens realitza un alineament amb cada un dels genomes introduïts. Alhora, ens crea un fitxer output per a cada un dels resultats.

for genome in Thalassiosira_pseudonana Phytophthora_sojae 
		Phytophthora_ramorum Theileria_annulata 
		Theileria_parva Babesia_bovis Entamoeba_histolytica 
		Entamoeba_terrapinae Trypanosoma_cruzi 
		Monosiga_brevicollis Giardia_intestinalis; do {

    	blastdb=`grep $genome /cursos/BI/genomes/protists/genomes_
	_list_and_info.tab | cut -f 4`

    	echo 'Corrent genoma' $genome
    	
	blastall -p tblastn -i SelS.fa -d $blastdb -o 
	SelSCONTRA${genome}.tblastn.out -F F -m9  } done

La comanda echo ens proporciona la frase “Corrent genoma “ cada vegada que ha acabat de córrer un dels genomes. D'aquesta manera podem fer un seguiment de en quin punt es troba el nostre programa i si està funcionant correctament.

La comanda -m9 ens proporciona els resultats del TblastN en forma de taula. Així tenim els resultats d'una manera endreçada i més fàcil d'interpretar.

Anotació dels genomes

Programes annexos

Indexació del genoma

Quan seleccionem el hit amb el qual volem continuar el protocol, realitzem el fastaindex. El genoma del qual disposem es tracta d'un arxiu multifasta, per aquesta raó, creem un índex d'aquest arxiu que ens permetrà posteriorment extreure la regió d'interès on podria estar la nostra selenoproteïna.

$ fastaindex /cursos/BI/genomes/protists/2010 genoma.index


Selecció de la regió a partir de la seqüència

Amb la comanda fastafetch, podem extreure la regió d'interès de l'arxiu .index que hem creat amb el fastaindex.

$ fastafetch /cursos/BI/genomes/protists/2010 genoma.index 
  identificador > regió.fa


Extracció de la regió: Fastasubseq

Com ja tenim un arxiu FASTA amb una única seqüència, podem utilitzar el programa fastasubseq per tal d'extreure la regió cromosòmica d'interès de la regió del genoma que hem extret amb el fastafetch.

$ fastasubseq /cursos/BI/genomes/2010/cromosoma.fa start length 
  > genomic.fa



Exonerate

Un cop tenim la seqüència de la selenoproteïna que busquem i hem extret la regió genòmica en la que es sospita d’una selenoproteïna fem córrer el programa exonerate. Aquest ens permet fer una anotació de la regió seleccionada direccionant el resultat en un fitxer.gff. Per extreure la seqüència de cDNA del fitxer.gff cap a un fitxer fasta farem servir el programa fastaseqfrom.pl.
Per poder-los fer anar caldrà posar les següents ordres al shell:

$ export PATH=/cursos/BI/bin:$PATH

$ exonerate -m p2g --showtargetgff -q Sel1.fa -t genomic.fa | 
  egrep -w exon > selprotistgenome.exonerate.gff

$ fastaseqfromGFF.pl genomic.fa selprotistgenome.exonerate.gff
  > cDNA.fa

Un cop hem obtingut la seqüència del cDNA podem passar-la a seqüència proteica amb el fastatranslate. El programa ens tradueix la seqüència en totes les pautes possibles (2 direccions, 3 pautes). Direccionem el fitxer resultant cap a un fitxer que ens indiqui que es tracta de la seqüència proteica.

$ fastatranslate cDNA -F 1 > prot.fa

Alineament de la Selenoproteïna

El programa T-COFFEE permet fer un alineament de la proteïna predita amb la seqüència de la selenoproteïna original. Ho fa mitjançant la següent comanda:

$ t_coffee "fitxerFASTAsequencia1" "fitxerFASTAsequencia2"

T-Coffee (Tree-based Consistency Objective Function for alignment Evaluation) té dos principals característiques. En primer lloc, proporciona un mitjà senzill i fexible per generar alineaments múltiples, utilitzant fonts de dades heterogènies. Les dades d'aquestes fonts es proporcionen a T-COFFEE a través d'una biblioteca de alineaments paire-wise.

Amb T-Coffee fem ús de la informació a la biblioteca per dur a terme l'alineació progressiva de manera que ens permet considerar els alineaments entre tots els parells, mentre duem a terme cada pas de l'alineació múltiple progressiva. Això ens dóna un aliniament progressiu, amb tots els seus avantatges de la velocitat i la senzillesa, però amb una tendència molt menor a cometre errors.

Cerca d’homòlegs

Finalment, un cop ja hem obtingut la seqü$egrave;ncia de la selenoproteïna, només ens queda buscar si té homòlegs. Això ho farem gràcies al BLASTp què realitza una cerca de la nostra seqüència predita contra el conjunt no-redundant de proteïnes disponibles al NCBI.
El podem cridar des del shell amb la següent ordre:

 $ export PATH=/cursos/BI/bin/netblast/bin:$PATH
 $ blastcl3 -p blastp -i "fitxerFASTAproteïna" -d nr

Cerca d’elements SECIS

Per tal de comprovar que el codó TGA es tradueix com una selenoproteïna i no com un STOP busquem l’element SECIS. El programa SECISearch ens permet buscar aquests elements ja que comparteixen una seqüència conservada per donar lloc a l’estructura 3D funcional.
El podem cridar des del shell amb la següent ordre:

 $ export PATH=/cursos/BI/bin:$PATH
 $ SECISearch.pl -h