Predicció de promotors


Per tal de verificar els primers exons de les prediccions i la presència de regions UTR upstream, hem intentat trobar els elements reguladors de la transcripció.

Es van utilitzar dos servidors: Regulatory Sequence Analysis Tools (RSAT), per trobar TATA boxes, i MATCH server, per trobar qualsevol tipus de senyals reguladores, i es van seguir els següents passos:

  1. De les seqüències emmascarades codificants per les proteïnes predites escollides, es van seleccionar els 300 nucleòtids anteriors al primer exó i els 50 primers d'aquests.
  2. Es van enviar aquestes seqüències al MATCH server, escollint com a grup de matrius all i no utilitzant les matrius de gran qualitat.
    Els resultats obtinguts són els mostrats a continuació:

  3. Taula 5. Potencials regions reguladores del gen 1 del Geneid
    
    matrix                position  core   matrix sequence (always the               factor name
    identifier            (strand)  match  match  (+)-strand is shown)
    
    F$HSF_01                 5 (-)  1.000  1.000  GTTCT                              HSF
    V$AML1_01               30 (-)  1.000  1.000  ACCACa                             AML-1a
    V$GKLF_01              163 (-)  0.929  0.910  CCCCActttcctct                     GKLF
    F$HSF_01               290 (+)  1.000  1.000  AGAAC                              HSF
    I$HSF_01               297 (+)  1.000  1.000  AGAAA                              HSF
    F$NIT2_01              345 (+)  1.000  1.000  TATCTa                             NIT2
    

    Per aquest gen trobem sis possibles regions reguladores, tres en forward i tres en reverse, però cap d'elles és un motiu de trasncripcional dels més necessaris (TATA i GC boxes). Les dues primeres (posicions 5 i 30) no poden correspondre a promotors, ja que es troben dintre dels 50 nucleòtids codificants. El situat a la posició 163, és reconegut per GKLF (Gut-enriched Kruppel-Life Factor), que conté tres dits de zinc C2H24.


    Taula 6. Potencials regions reguladores del gen 2 del Geneid
    matrix                position  core   matrix sequence (always the               factor name
    identifier            (strand)  match  match  (+)-strand is shown)
    
    V$PAX2_01              131 (+)  1.000  0.853  caacGTCACgtggaagctg                Pax-2
    V$USF_02               133 (+)  1.000  0.973  acgtCACGTggaag                     USF
    V$USF_02               133 (-)  1.000  0.973  acgtcACGTGgaag                     USF
    V$USF_02               159 (-)  1.000  0.976  ctcccACGTGgccc                     USF
    V$USF_02               159 (+)  1.000  0.976  ctccCACGTggccc                     USF
    V$USF_Q6               161 (+)  0.987  0.972  cCCACGtggc                         USF
    F$HSF_01               186 (+)  1.000  1.000  AGAAC                              HSF
    F$HSF_01               199 (+)  1.000  1.000  AGAAC                              HSF
    V$PAX4_03              242 (+)  1.000  0.987  cagcccCACCCt                       Pax-4
    V$GC_01                242 (-)  0.954  0.948  cagccCCACCctct                     GC box
    

    En aquest cas es prediuen deu motius reguladors, dels quals dos són reconeguts per PAX25 i PAX46, relacionats amb el desenvolupament embrionari, mentres que cinc d'ells interaccionen amb la proteïna USF7, que pertany a la família de bHLH-Zip. Per una altra part, dos d'ells són reconeguts per HSF (Heat Shock transcription Factor)8, tot i que aquest només està descrit en llevat. Per últim, s'ha predit una GC box9, la qual éa una regió promotora per la RNA polimerasa II, però el fet que estigui amb una orientació diferent, no pot estar involucrat en la regulació de la transcripció.


    Taula 7. Potencials regions reguladores del gen 5 del FGenes
    matrix                position  core   matrix sequence (always the               factor name
    identifier            (strand)  match  match  (+)-strand is shown)
    
    V$PAX4_04               22 (+)  1.000  0.785  AAAAAgcaaaacaaaaccaacccgtattcc     Pax-4
    V$SRY_01                30 (+)  1.000  1.000  AAACAaa                            SRY
    I$UBX_01                70 (-)  1.000  0.980  gtagctcCATTAaaccatt                Ubx
    V$HOXA3_01              84 (-)  1.000  0.959  ccatTTAGG                          HOXA3
    F$HSF_01               120 (-)  1.000  1.000  GTTCT                              HSF
    

    En aquest gen no trobem ni TATA ni GC boxes perquè els primers exons d'aquest no corresponen a cap proteïna, de manera que els 300 parells de bases anteriors a aquests no poden contenir cap regió reguladora.


    Taula 8. Potencials regions reguladores del gen 7 del Grail
    matrix                position  core   matrix sequence (always the               factor name
    identifier            (strand)  match  match  (+)-strand is shown)
    
    V$TST1_01              119 (+)  1.000  0.947  gggGAATTtaacttt                    Tst-1
    V$PAX4_04              162 (-)  0.950  0.787  ttggtgcatttgtaataaatgtcatTTTCT     Pax-4
    I$HSF_01               187 (-)  1.000  1.000  TTTCT                              HSF
    I$HSF_01               216 (+)  1.000  1.000  AGAAA                              HSF
    V$CDXA_01              245 (-)  1.000  0.971  cgTAAAT                            CdxA
    V$OCT1_04              246 (+)  0.952  0.904  gtaaatatATGAAtatatttctg            Oct-1
    I$HSF_01               263 (-)  1.000  1.000  TTTCT                              HSF
    I$HSF_01               296 (+)  1.000  1.000  AGAAA                              HSF
    I$HSF_01               314 (+)  1.000  1.000  AGAAA                              HSF
    

    Per aquest últim gen, el qual ha predit correctament Grail, tampoc es troben elements importants en la regulació de la transcripció. Es troben regions reconegudes per HSF8 que, com hem comentat anteriorment, pertanyen a llevat, i elements en reverse que desestimem. També es troba una seqüència reconeguda per OCT110, que s'uneix a diferents regions no similars, i una altra per TST111, predicció errònia, ja que aquest només s'expressa a neurones específiques i a glia formadora de mielina i a més s'uneix únicament al promotor del gen codificant per la mielina P0.


  4. Com els resultats anteriors no van demostrar l'existència de cap TATA box, es va prodecir a realitzar una cerca més específica per aquestes, utilitzant el servidor RSAT amb la matriu M00252, corresponent a TATA boxes cel·lulars obtinguda a partir de la base de dades de TRANSFAC.
    Es van obtenir els següents resultats:

    Gen 1 del Geneid

    Gen 2 del Geneid

    Gen 5 del FGenes

    Gen 7 del Grail


    En cap de les quatre seqüències analitzades per aquest servidor, s'ha trobat alguna TATA box.

    Veient els resultats i donat que vam agafar una seqüència de 300 nucleòtids en posició upstream del translation start site podem dir que existeixen regions UTR, situades entre aquest i el transcription start site que impedeixen la detecció de la presència de TATA i GC boxes.

    Per tal de determinar l'existència d'aquestes en posicions més llunyanes s'hauria d'analitzar la seqüència upstream, en finestres de 2000 parells de bases, en programes com el First Exon Finding.