OBJECTIU DEL TREBALL: L'objectiu principal del treball és anotar les selenoproteïnes del genoma de Propithecus coquereli. Per fer-ho, s'han utilitzat com a querys les selenoproteïnes anotades en el genoma Homo sapiens i, gràcies a programes informàtics elaborats amb el llenguatge Perl, s'han pogut predir les selenoproteïnes de P. coquereli.
1. Obtenció de les querys
Per obtenir les Querys s'ha utilitzat la pàgina de SelenoDB en la qual vam extreure les selenoproteïnes de l'humà ja que P.coquereli és un primat i el genoma de Homo sapiens és el genoma de primat millor anotat. Cal dir que s'han tingut en compte totes les isoformes de les proteïnes.
2. Obtenció del genoma de Propithecus coquereli
El genoma de l'espècie a analitzar ha estat proporcionat pels coordinadors de l'assignatura de Bioinformàtica de la Universitat Pompeu Fabra. Aquest es troba en el següent directori:
/cursos/BI/genomes/2015/Propithecus_coquereli/genome.fa |
3. tBLASTn
S'utilitza el programa BLAST (Basic Local Alignment Search Tool), un programa informàtic que compara una sequència problema (query) contra una altra seqüència (en el nostre cas el genoma de Propithecus coquereli).
És important esmentar que el BLAST utilitza un algorisme heurístic que troba ràpidament les seqüències amb més homologia respecte la seqüència problema (hits). Hem utilitzat el BLAST amb la configuració per defecte i no s'ha afegit cap tipus de llindar paramètric.
Hi ha diferents variants de BLAST que permeten alinear diferents tipus de seqüències (DNA, RNA o proteïna). En el nostre cas, s'ha utilitzat un tBLASTn, que permet comparar una query formada per una seqüència proteica (selenoproteïna humana) amb una base de dades nucleotídica (genoma de P. coquereli).
Primer de tot, s'ha de definir un path al shell per tal que trobi la carpeta en la qual es localitza el programa:
$ export PATH=/cursos/BI/bin/ncbiblast/bin:$PATH |
$ cp /cursos/BI/bin/ncbiblast/.ncbirc ~/ |
Llavors, la comanda utilitzada per còrrer aquest blast és:
for fa in *.fa; do blastall -p tblastn -i $fa –d /cursos/BI/genomes/2015/Propithecus_coquereli/genome.fa -o $HOME/P.coquereli_blastout/$fa.out; done |
-p: programa BLAST, en aquest cas tblastn
-i: query que s’alinea amb el genoma d’interès
-d: genoma en format base de dades
-o: output, fitxer de sortida
La funció d'aquest bucle és còrrer el programa per tots els arxius amb extensió ".fa" que es trobin en el directori actual. Així, aconseguim que es faci el BLAST per a totes les querys i que es guardin tots els outputs, un per a cada proteïna.
A continuació recollim, per a cada proteïna, les següents dades en una taula:
Aquesta taula, es pot consultar a BLASTOUT
4. Anàlisi dels resultats del BLAST
Posteriorment, es van analitzar aquests resultats per trobar el hit o conjunt de hits òptim/s, és a dir, aquell o aquells que millor defineix/en la possible proteïna en el genoma de P. coquereli.
Per això, es van tenir en compte els paràmetres estadístics (% d'identitat i E-value) i la "coherència" del hit. És a dir, es van mirar les coordenades del hit comparant-les amb les altres isoformes i amb les proteïnes de la mateixa família, decidint si el hit és l'òptim. Com que les proteïnes d'una mateixa família poden ser similars i, per tant, tenir un mapa de hits semblant, és necessari comparar els hits entre les proteïnes de la mateixa família i assignar a cadascuna el hit més adequat.
Per exemple, en la família de DI existeixen 3 proteïnes: DI1, DI2 i DI3. En aquest cas, s'obtingueren 3 hits molt bons (amb E-value molt petit i % d'identitat molt alt) a cadascuna. No obstant, dos d'aquests semblaven correspondre a les altres dues proteïnes de la família, mentre que el restant semblava el millor dels hits per la proteïna en qüestió, indicant que hi ha una gran homologia entre les proteïnes de la mateixa família.
En alguns casos, aquesta avaluació va ser més difícil, fent l'elecció entre dos o més hits impossible. En aquests casos, es van tenir totes en compte fins a l'obtenció dels resultats de l'alineament del TCOFFEE.
A partir d'aquesta selecció, es va realitzar una taula amb el hit òptim i les seves coordenades màximes i mínimes, sumant 25000 nucleòtids a cada extrem per assegurar d'extraure la proteïna sencera del genoma. En aquesta mateixa taula, s'hi afegeixen les dades de l'Scaffold.
Pel que fa la maquinària vam considerar que agafant 5000 nucleòtids per cada extrem obtindíem la proteïna completa del genoma.
Aquesta taula és la base per a tots els programes.
5. Conversió de la taula en un vector
Per a la utilització d'aquesta taula en tots els programes és necessari convertir-la en un vector. Utilitzant la comanda «split» per assignar una posició a cada columna, ja que estan separades per una tabulació. Aquest vector prendrà el nom de cada proteïna, una a una, i no canviarà de proteïna fins que s'hagin completat tots els programes.
6. Programa per crear carpetes
L'objectiu d'aquest programa és organitzar d'una manera fàcil i ràpida tots els documents que van sortint a mesura que es van corrent els programes. Així, dins de la carpeta mare «P_coquereli» es van crear carpetes pels fitxers obtinguts en aquests programes: FastaFetch, Fastasubseq (dins de la qual es van crear dues carpetes: una pels fitxers amb «U» i l'altra pels fitxers que convertiríem de «U» a «X»), Exonerate (dins de la qual es van crear dues carpetes: una pels fitxers «GFF» i l'altra pels fitxer sconvertits a «FASTA»), una per tenir totes les querys i una pel T-COFFEE.
7. Programes utilitzats per fer l'alineament final
- Fastaindex: En aquest programa, es fa un índex del genoma. És a dir, en un mateix document t'indexa el genoma (en format multifasta) amb l'scaffold i les seves coordenades.
- Fastafetch: Aquest programa segueix l'índex creat pel fastaindex i fa un document per cada proteïna amb l'scaffold. El nom del fitxer és: $protname.scaffold.fa.
- Fastasubseq: Aquest programa talla l'scaffold segons les coordenades marcades (+25000 i -25000 nucleòtids).
- Canvi de «U» per «X» a la query per tal que el següent programa, l'exonerate, pugui llegir el fitxer.
- Exonerate: El seu objectiu és obtenir l'scaffold sense introns, presentant els exons de totes les proteïnes en una mateixa taula. Per fer-ho, compara la seqüència query (en aminoàcids) amb el fitxer obtingut del fastasubseq (en nucleòtids).
- FastaseqfromGFF: Transforma la taula obtinguda a l'exonerate (en format GFF) a un fitxer per a cada proteïna en format fasta.
- Fastatranslate: Com que els fitxers obtinguts són cDNA (on només hi ha exons), aquest programa els transforma a una seqüència d'aminoàcids.
- Canvi de * per X en el genoma de P. coquereli per tal que el T-COFFEE pugui realitzar un bon alineament.
- T-COFFEE: Alinea la query (humana) amb la seqüència d'aminoàcids que pot ser una possible selenoproteïna de P. coquereli. Sota aquest alineament apareixen els següents símbols: «*» si la conservació és excel·lent, «:» si la conservació és molt bona, «.» si la conservació és bona. Així es pot saber, finalment, si aquesta proteïna es troba conservada en l'espècie estudiada o no.
8. Automatització
Tots aquests passos s'han realitzat de manera automatitzada mitjançant aquest programa
9. Recerca d'elements SECIS
Per tal de definir quines de les proteïnes complien el requisit de tenir l'element SECIS, que és el responsable de la síntesi de selenocisteïna a partir del codó UGA, hem obtingut una predicció dels elements SECIS de cada proteïna de P.coquereli estudiada mitjançant els programes SECISsearch3 i Seblastian .
Hem contrastat els resultats d'ambdós programes ja que s'han donat casos en els quals amb un dels programes no s'obtenien resultats. S'han buscat elements SECIS a l'extrem 3'-UTR a la seqüència extreta del fastasubseq on s'inclouen 25000 pb a cada extrem de les coordenades del hit òptim, ja que els elements SECIS es localitzen fora de la seqüència codificant, a l'extrem 3'-UTR.