Obtenció del genoma de P. marinus

El primer que s'ha de fer és buscar el genoma de Perkinsus marinus. TIGR és la companyia encarregada del projecte de seqüenciació, el qual encara no està finalitzat. Degut a que l’accés a la seva pàgina és impossible sense estar donat d'alta, el genoma s'obté d'una carpeta del /disc8/genomes/P.marinus, el qual ha estat extret del NCBI.

El genoma de Perkinsus marinus no es troba acabat d'ensamblar, sinó en contigs.

Obtenció de seqüències de selenoproteïnes

Una vegada obtingut el genoma es busquen les selenoproteïnes i les proteïnes de maquinària de síntesi de selenoproteïnes conegudes en humà i/o en altres organismes a les bases de dades del SelenoDB i del NCBI.

  • Aquelles selenoproteïnes conegudes presents en altres organismes i no en l'humà s'extreuen del /disc8/genomes/protistes i del NCBI
  • Quan es tenen totes les seqüències de les selenoproteïnes conegudes, es comprova si aquestes contenen l'aminoàcid selenocisteïna o són homòlogues en cisteïna.
  • Similaritat: TblastN

    El programa TblastN et permet alinear cada selenproteïna coneguda (query) contra el genoma de P.marinus (subject) per conèixer aquelles regions d'homologia.(+)

    nota: Per veure les comandes utilitzades en Unix clica (+)

  • A partir dels alineaments obtinguts, s'escullen aquells que tenen una millor e-value. L'e-value és un paràmetre indicatiu de la probabilitat de trobar un hit concret per atzar en una base de dades de determinada mida. Com més baix sigui aquest valor, millor serà el hit.
  • En el cas de que es tinguin dos alineaments en dos contigs diferents amb un e-value molt semblant i en la mateixa regió, s'ha de comprovar que els contigs no siguin una duplicació, ja que al no trobar-se ensamblat el genoma hi ha repeticions de fragments. Per comprovar-ho cal de fer un Blast entre les seqüències dels dos contigs mitjançant el BLAST2seq del NCBI.
  • Seguidament, es comprova que el hit, encara que tingui una bona e-value, tingui un alineament correcte.
  • Una vegada comprovat l'alineament, es mira quin aminoàcid de la seqüència peptídica extreta del genoma de Perkinsus marinus es troba alineat amb la selenocisteïna o cisteïna de la selenoproteïna coneguda.
  • S’obté la llargada del fragment alineat del genoma de Perkinsus marinus i el frame en el qual es troba.
  • Obtenció de la seqüència genòmica

    Un cop conegut el contig on es situa la possible selenoproteïna de P. marinus, s'ha d'extreure la seqüència genòmica d'aquesta.

  • Mitjançant el programa Fastafetch s’extreu la seqüència genòmica del contig d'interés. (+)
  • A partir del programa Fastasubseq es delimita la regió genòmica de la possible selenoproteïna, aproximadament 3000 bases upstream i downstream de la llargada del hit alineat en el TblastN. (+)
  • Obtenció de la seqüència exònica i peptídica: Exonerate i Genewise

    Una vegada extreta la seqüència del genoma, es vol obtenir el cDNA i la seqüència peptídica de la possible selenoproteïna a partir del genoma de P. marinus.

  • Primer s’utilitza el programa Exonerate a través de la terminal per conèixer el número d’exons de la possible selenoproteïna i la seva seqüència. La utilització d'aquest programa té bastantes limitacions, per això la majoria de vegades no es pot realitzar aquest pas. (+)
  • El següent pas consisteix en utilitzar el programa Genewise, també a través de la terminal. Aquest programa permet obtenir la seqüència aminoacídica de la proteïna predita, el cDNA, saber el número d'exons de la proteïna, i obtenir un alineament entre la proteïna predita de l'organisme contra la proteïna de partida. (+)
  • En els casos en els quals el Genewise no dóna un alineament adequat degut a que suprimeix part de l'alineament fet pel TblastN, cal fer una proteïna quimèrica amb la part resultant del Genewise i la part que li falta del TblastN de la mateixa espècie. També en alguns casos s'ha fet una proteïna quimèrica entre un fragment de la proteïna de partida i un de P. marinus.
  • Amb la proteïna quimèrica es fa servir el programa T_COFFEE per tal de comprovar, fent una comparació amb la proteïna corresponent humana, si hi ha alineament d'una selenocisteïna o bé una cisteïna.
  • En aquells casos en que ni el Genewise ni el TblastN acaben de fer l'alineament fins la selenocisteïna, s'ha d'utilitzar el Fastasubseq per extreure la seqüència nucleotídica del contig que tingui la llargada aproximada del la possible selenoproteïna. Aquesta llargada es pot hipotetitzar a partir de la llargada de la proteïna de partida.
  • Es tradueix aquesta seqüència nucleotídica extreta a partir del programa Transeq EBI o bé el Fastarevcomp (+)
  • Es fa un T_COFFEE entre la proteïna traduïda i la humana per fer un nou alineament.
  • S'utilitza el programa Expasy per comrpovar que el codó stop predit pel Fastarevcomp correspon a TGA.
  • Quan només s'alinea una regió de la proteïna amb el genoma, per saber si és un domini conservat s'utilitza el programa Pfam
  • Anàlisi de la seqüència proteica

    Per conèixer el nivell d'homologia entre la proteïna predita pel Genewise i les homòlogues conegudes es torna a utilitzar el programa T_COFFEE.

    Per comprovar que la proteïna predita s'alinea amb homòlogues d'altres organismes, s'utilitza el Blastcl3 nr online a través del NCBI.

    Cerca d'elements SECIS

    Per la traducció d'una selenoproteïna és necessaria la presència d'un element SECIS downstream de la seqüència del gen. L'element SECIS és l'encarregat de reclutar les proteïnes necessàries i el tRNA de selenocisteïna perquè continuï la traducció.

  • El primer que cal fer és utilitzar el programa Fastasubseq per extreure una seqüència de 1000 bases downstream de la proteïna predita. (+)
  • S’utilitza el programa SECISearch (online) per tal d'obtenir l'estructura del possible SECIS, la seqüència exacte d'aquest, el score i l'energia lliure de l'estructura secundària predita.
  • En aquells casos en els quals es vol comprovar a quina selenoproteïna d'una família és homòloga la proteïna predita, s’utilitza SECISaln, un programa que compara les seqüències de tots els SECIS de selenoproteïnes conegudes, de manera que permet veure si una seqüència s'assembla més a una o altre d'una família.
  • Arbre filogenètic

    Per poder fer l'arbre filogenètic s'ha utilitzat el programa de la pàgina web MABL, seleccionant l'opció Advanced de Phylogeny Analysis, i seleccionant que l'arbre mostrat sigui en forma de cladograma.

    Cerca del tRNAsec

    Per poder comprovar l'existència del tRNA no s’utilitza el protocol anterior per buscar selenoproteïnes ja que no és una proteïna, sinó un RNA.

  • Mitjançant un programa de cerca de tRNAs segons l'energia lliure resultant d'adquirir una determinada conformació secundària, es prediuen un seguit de possibles tRNAsecs.
  • A través del programa Fastasubseq s’extreu la regió nucleotídica en que el programa de cerca de tRNAs ha predit la possible estructura secundària. (+)
  • Amb les seqüències predites es fa un T_COFFEE per analitzar la similaritat existent amb els tRNAsecs d' Homo sapiens, Drosophila melanogaster, Drosophila yakuba, Anopheles aegypti i Anopheles gambiae.
  • Cerca de noves selenoproteïnes

    Per buscar noves selenoproteïnes s'ha de tenir en compte quines característiques han de presentar: tenir selenocisteïna en pauta de lectura, que hi hagi conservació de la seqüència upstream i downstream del codó UGA i tenir element SECIS en la regió downstream del gen .

    La cerca comença en aquelles regions que presenten la tercera característica necessària: presència d'elements SECIS.

  • S’utilitza el programa SECISsearch.pl per tal de buscar tots els elements SECIS possibles. Aquest programa busca aquelles seqüències que són capces d’adquirir una estructura secundària semblant a la d’un element SECIS i indica l’energia lliure que comporta adquirir aquesta conformació.
  • S'utilitza un programa en perl per tal de seleccionar aquelles estructures predites amb un rang d'energia lliure determinada.(+)
  • A través de la terminal es seleccionen els noms dels contigs que contenen les seqüències d’interès i es separen segons si estan en la cadena patró o en la complementària.(+)
  • S'extreu la seqüència corresponent a cada contig mitjançant el programa retrieverseqs.pl(+)
  • S’inverteix el sentit d’aquelles seqüències que es troben en la cadena complementària, de manera que totes les seqüències dels contigs es trobin en el mateix sentit i es puguin agrupar en un mateix arxiu. (+)
  • S'extreu mitjançant el Fastasubseq una seqüència de 500 bases upstream del començament del possible SECIS predit. (+)
  • Es tradueixen les seqüències mitjançant el programa trans.pl a les tres pautes de lectura corresponents.(+)
  • Es fa un Blastcl3 de les possibles proteïnes amb la base de dades de genomes del NCBI per tal de saber si alguna d’aquestes possibles proteïnes existeix en altres organismes.(+)
  • S'utilitza un programa en Perl per tal d'extreure, dels resultants obtinguts en el Blastcl3, aquelles selenocisteïnes que han alineat un codó stop (*) amb una cisteïna. (+)
  • Es fa servir el programa Genewise per poder extreure la seqüència proteica de Perkinsus marinus corresponent a l'alineament obtingut per Blastcl3. (+)
  • Finalment, es mira la similaritat existent entre la proteïna predita pel Genewise i la del organisme amb la qual s'ha alineat en el Blastcl3 pel programa T_COFFEE. (+)
  •  

    Universitat Pompeu Fabra