CERCA DE PROTEÏlNES HOMÒLOGUES A SELENOPROTEÏNES D'ALTRES ESPÈCIES
1.- Cerca del genoma d'Entamoeba invadensEl primer que vam fer va ser obtenir el genoma d'Entamoeba invadens a la base de dades de Sanger Institute, tot i que finalment vam utilitzar l'entregat pels professors a:
$/disc8/genomes/E.invadens/genome.fa
2.- Cerca de selenoproteïnes ja conegudes
El següent que vam fer va ser entrar a la base de dades de selenoproteïnes SelenoDB i adquirir la seqüència proteïca de totes les selenoproteïnes descobertes fins ara i de totes les seqüències de la maquinària de síntesi amb el propòsit de buscar homologies en el nostre genoma.
3.- Alineament de seqüències: TBLASTN
A continuació vam utilitzar el programa BLAST (Basic Local Alignment Search Tool) per buscar seqüències homòlogues entre el nostre genoma. BLAST és un algoritme per comparar seqüències biològiques com ara una seqüència d'aminoàcids de proteïnes diferents o de seqüències de DNA. En concret, el TBLASTN és un tipus de BLAST que fa alineaments locals. Compara una seqüència de proteïna query (selenoproteïnes conegudes i la maquinària de síntesi) contra una seqüència nucleotídica (genoma d'Entamoeba invadens) o una base de dades dinàmicament traduïda en Marcs de Lectura Oberta (Open Reading Frames).
$blastall -p tblastn -d elnostregenoma.fa -i proteïnesquery.fa -e 0.01 -F F
L'e-value és el nombre esperat d'alineaments que podem obtenir amb un score igual o superior per atzar en un alineament múltiple. Com major sigui l'e-value, menys significatiu serà l'aparellament. L'opció -F F és un tipus de filtre que exclou les seqüències amb regions de baixa complexitat composicional per eliminar hits potencialment confusos.
Vàrem observar la qualitat de l'alineament i vam fixar uns criteris de sel·lecció en funció dels resultats. Els hits que vam sel·leccionar estan reflexats en l'apartat de resultats (es caracteritzen per tenir un score superiror a 57, un e-value igual o inferior a 1e-09 i una identity superior al 23%).
4.- Obtenció de la seqüència genòmica d'interès
El següent pas seria extreure la regió cromosòmica on es troba l'alineament o alineaments en un fitxer FASTA apart mitjançant el programa fastasubseq, que s'utilitza per delimitar les seqüències upstream i downstream i assegurar-nos així que tenim tot l'alineament. Com que el nostre genoma està separat per contigs i aquests són curts, vam decidir córrer directament l'exonerate i Genewise amb els contigs complerts on es trobaven aquests alineaments.
La comanda per fer el fastasubseq és la següent:
$fastasubseq contig.fa (posició començament) (llargada) > genomic.fa
5.- Predicció de l'estructura exònica: Exonerate i GeneWise
A continuació vam utilitzar els dos programes Exonerate i Genewise per conèixer la seva estructura exònica. Exonerate és un programa que alinea seqüències predint quina podria ser l'estructura exònica de la seqüència problema. A l'alineament es té en compte la presència d'introns, però també canvis en la pauta de lectura i canvis en els exons si un codó està interromput per un intró. Genewise compara les nostres seqüències genòmiques trobades amb les seqüències proteïques de les selenoproteïnes que estem estudiant i en prediu l'estructura exònica (indicant els potencials introns i exons), la seqüència codificant i la seva proteïna codificada.
Per executar Exonerate vam aplicar la següent comanda des del shell:
exonerate -m p2g -showtargetgff -q proteïnaquery -t contig > exonerateoutput
Per córrer el programa Genewise i per tal d'obtenir un alineament global, ja que per defecte GeneWise utilitza l'alineament local, s'utilitza aquesta comanda, tot i que també es pot córrer via online:
Genewise –init global selenoproteïna.fa fragmentgenomic.fa
Seguidament, per obtenir la traducció de les seqüències de les selenoproteïnes predites vam utilitzar el programa ExPASy, que tradueix la seqüència de cDNA a seqüència aminoacídica amb els 6 frames possibles.
6.- Alineament de les proteïnes resultants: T-Coffee
T-Coffee és un programa d'alineaments múltiple de seqüència. Permet combinar resultats obtinguts amb diferents mètodes d'alineament. Compara les seqüències dos a dos donant així una sèrie d'alineaments globals i locals i finalment combina els resultats obtinguts donant un alineament múltiple.
Per tant, el següent pas va ser alinear la nostra selenoproteïna predita d'E. invadens amb les diverses proteïnes que ens havien donat hits significatius. A través de la utilització de T-Coffee online vam usar el BLOSUM65 i vam poder corroborar els resultats anteriors.
Com que els els alineaments no eren molt bons, voliem assegurar-nos que realment la zona que ens alineava corresponia a les proteïnes de la base de dades, i no a d'altres. Per aquest motiu vam realitzar un blastx de la regió alineada d'E. invadens amb la base de dades de NCBI. Vàrem descartar dos hits (eEFSec i SelI) que realment els resultats del NCBI ens feien adonar que la regió de la nostre seqüència pertanyia a altres proteïnes.
7.- Cerca d'elements SECIS
Un cop obtingudes les possibles selenoproteïnes vam utilitzar el programa SECISearch per comprovar si contenien el codó UGA dins la pauta de lectura i l'element SECIS en 3'. SECISearch localitza possibles dominis d'elements SECIS i en valora la seva estructura tridimensional.
CERCA DE NOVES SELENOPROTEÏNES
Identificació d'elements SECIS
Després d'analitzar les selenoproteïnes descrites en altres genomes, vam voler identificar si en el genoma d'E. invadens hi havia selenoproteïnes no descrites fins ara. Per això vam seguir el protocol aportat pel professor Charles Chapple. També vam utilitzar els programes trans.pl i retrievseqs.pl.
Cerca d'elements tRNAsec
A partir de les dades donades pel professor
Marco Mariotti vam analitzar les dades i els resultats
es troben explicats a l'apartat Resultats i Discussió.