Resultats i Discussió de S. arctica
La cerca amb tBlastn de la query d'Emiliana huxleyi al genoma de S.artica ha predit 4 hits significatius (E-value < 1.10-4) en scaffolds diferents.
Hit 1
Exonerate prediu dos alineaments diferents en el mateix scaffold i Genewise sols detecta el primer.
- Aquest és un alineament directe, consta de 2 exons i 1 intró, i la selenocisteïna de la query s'alinea amb una cisteïna a l'inici del segon exó. Genewise prediu la mateixa estructura exònica però de menor llargada.
L'alineament de la seqüència proteica amb Tcoffee mostra una regió d'alta similitud, malgrat no engloba la totalitat de la query. El Blastp dut a terme contra la base de dades de NCBI retorna diverses proteïnes de la família de les Tiorredoxina-Disulfit Isomerasa (TDI) en diferents organismes. - El segon alineament és directe i conté un sol exó on la selenocisteïna de la query s'alinea amb una cisteïna. S'ha allargat manualment l'extrem 5' del primer exó, ja que l'inici de l'alineament coincideix amb la seqüència consens, però el resultat obtingut no és bo.
Es detecta una regió d'elevada similitud amb Tcoffee, i el Blastp amb NCBI retorna diverses proteïnes de la família TDI.
No s'han trobat elements SeCIS amb SECISearch. Els dos alineaments no se solapen, fet que, junt amb els resultats anteriors, permet afirmar amb relativa certesa que els dos gens detectats són homòlegs amb cisteïna d'EhSEP2.
Hit 2
La predicció amb Exonerate retorna quatre alineaments. Genewise només detecta el primer, i en prediu exactament la mateixa estructura exònica i seqüència proteica.
- El primer alineament és directe i conté un sol exó a la regió inicial del qual, la selenocisteïna s'alinea amb una cisteïna. Tcoffee prediu una regió d'alta similitud, malgrat no inclou la totalitat de la query. Els primers hits trobats amb el Blastp de NCBI corresponen a proteïnes de la família TDI.
- El segon és un alineament directe, amb 3 exons i 2 introns. Al segon exó la selenoproteïna de la query s'alinea amb una cisteïna, i es detecta un residu de la seqüència consens modificat (EWCGH).
L'alineament amb Tcoffee mostra una regió d'elevada similitud, malgrat és de menor llargada que la seqüència de la query. NCBI retorna diverses proteïnes de tipus TDI. - El tercer dels alineaments és directe, conté 3 exons i prediu 2 introns consecutius sense qui hi hagi cap fragment de seqüència codificant entre mig. La selenoproteïna de la query queda alineada amb un residu de cisteïna al primer exó. El Tcoffee inclou un segment relativament llarg de la query amb elevada similitud. Per altra banda la curta seqüència del segon exó s'alinea amb una qualitat no gaire bona. Aquest fet pot fer pensar que en realitat aquest darrer exó i els dos introns consecutius anteriors no formen part del gen. NCBI retorna proteïnes del tipus TDI en diferents organismes.
- El quart alineament és directe i conté 2 exons i 1 intró. Hi ha un aminoàcid de diferència en la seqüència consens (AWCGH), i aquesta queda interrompuda al final del primer exó, essent l'últim dels residus una cisteïna alineada amb la selenoproteïna de la query. Així, es tractaria d'un homòleg amb cisteïna d'EhSEP2.
El Tcoffee permet predir homologia, malgrat l'alineament no s'estén al llarg de tota la regió final de la query. El Blastp amb NCBI retorna nombroses proteïnes del tipus TDI.
No s'han trobat elements SeCIS amb SECISearch.
Els tres últims alineaments són solapants, però els dos de menor longitud, el número 2 i 4, es localitzen a l'intró del número 3. Consegüentment, l'estructura gènica predita en aquest scaffold consistiria en el gen detectat a l'alineament 3 (excloent el darrer exó petit), seguit del gen predit a l'alineament 2, posteriorment el 4, i finalment l'1. Així, aquest scaffold contindria quatre gens homòlegs a EhSEP2, tots amb cisteïna enlloc de selenocisteïna.
Hit 3
La predicció amb Exonerate ha donat 7 alineaments al mateix scaffold, mentre que Genewise només prediu el primer, donant el mateix resultat.
- El primer alineament és directe i conté 2 exons i 1 intró. La seqüència consens queda interrompuda per l'intró, i a l'inici del segon exó la selenocisteïna de la query s'alinea amb una cisteïna. L'alineament de la seqüència proteica amb Tcoffee presenta una regió relativament extensa amb alta similitud, i el Blastp amb NCBI retorna proteïnes de la família TDI.
- El segon alineament també és directe, conté 3 exons i 2 introns. La seqüència consens està interrompuda pel primer intró, quedant a l'inici del segon exó la selenoproteïna de la query alineada amb una cisteïna. El resultat del Tcoffee és bo, i NCBI mostra diverses proteïnes de tipus TDI.
- El tercer dels alineaments és directe i conté 5 exons i 4 introns. Igual que en els casos anteriors, la seqüència consens s'interromp pel primer intró, i la selenoproteïna s'alinea amb una cisteïna.
A diferència de la resta d'alineaments, la regió d'alta similitud detectada amb Tcoffee engloba pràcticament la totalitat de la seqüència query. Una hipòtesi que s'estudia mes endavant és si els dos darrers exons d'aquest alineament podrien complementar els alineaments incomplets de la resta d'alineaments.
El Blastp amb NCBI retorna la pròpia query d'E.huxleyi, i un precursor d'EhSEP2, així com múltiples proteïnes de tipus TDI. - El quart alineament és directe, conté 2 exons i 1 intró. La seqüència consens també està interrompuda pel primer intró, i la selenocisteïna s'alinea amb una cisteïna. El Tcoffee detecta un fragment d'alta similitud, malgrat no s'estén al llarg de tota la query. Diverses proteïnes de tipus TDI són detectades amb el Blastp de NCBI.
- El cinquè alineament és directe, i consta de 3 exons i 2 introns. La seqüència consens està interrompuda de la mateixa manera que en els casos anteriors, i la selenocisteïna també s'alinea amb una cisteïna. Tcoffee ha predit un segment d'alta similitud i NCBI reporta múltiples proteïnes de tipus TDI.
- El sisè alineament és directe, amb 3 exons i 2 introns. La selenocisteïna està alineada amb cisteïna i la seqüència consens es troba interrompuda pel primer intró com en els casos anteriors. L'alineament amb Tcoffee mostra una regió d'elevada similitud, malgrat no engloba una primera part que en tots els alineaments anteriors hi era present. Proteïnes de la família TDI també són reportades amb el Blastp del NCBI.
- El setè alineament és directe i conté 2 exons i 1 intró. La seqüència consens es troba dividida de la mateixa manera que en els casos anteriors, i la selenocisteïna s'alinea amb una cisteïna. La regió homòloga predita per Tcoffee té una llargada lleugerament menor a les predites anteriorment. Malgrat tot, NCBI retorna hits de proteïnes de tipus TDI.
SECISearch no ha detectat cap element SeCIS.
Figura 1.
Tal i com es representa a la figura anterior, alguns dels alineaments anteriors són solapants, malgrat cap dels exons predits se solapa. Tots els alineaments excepte el tercer tenen una longitud reduïda i s'alineen amb aproximadament els mateixos aminoàcids de la query. El mateix succeeix amb els tres primers exons dels cinc que conté el tercer alineament. Així, la major llargada d'aquest la proporcionen els seus dos últims exons. Comparant tots els Tcoffees obtinguts, s'ha observat que aquests dos exons complementen perfectament la resta d'alineaments, englobant pràcticament la totalitat de la query.
Això, junt amb el fet que en tots els alineaments la seqüència consens està dividida a la mateixa posició i que la seqüència proteica obtinguda és molt similar (alineament múltiple) en tots els casos, suggereix que els set alineaments predits són en realitat un sol gen amb diferents exons que alineen en una mateixa regió de la query. Així, per splicing alternatiu s'obtindrien diferents isoformes d'una proteïna homòloga a EhSEP2.
Per comprovar la hipòtesi, s'han realitzat algunes de les combinacions anteriors manualment, però es produeixen canvis en la pauta de lectura de certs exons que condueixen a modificacions de la seqüència donant lloc a extensions no òptimes.
No obstant, el fet que no s'hagi pogut simular l'splicing alternatiu de forma manual amb resultats òptims, no permet descartar la hipòtesi plantejada. Tanmateix, si aquesta fos certa, el gen contindria 18 exons, capaços d'alinear amb la mateixa regió de la query, que es complementarien amb els dos últims exons del tercer alineament. En tots els casos, la selenocisteïna de la query correspondria a un residu de cisteïna.
Hit 4
Tant Exonerate com Genewise prediuen un sol alineament. Aquest és revers, amb un sol exó, i una cisteïna alineada amb la selenocisteïna de la query. El Tcoffee realitzat amb Genewise mostra una regió homòloga, malgrat l'alineament engloba una part relativament petita de la query. L'extensió manual de l'alineament en la regió inferior no ha resultat en un alineament òptim. NCBI retorna diverses proteïnes del tipus TDI. No s'han trobat elements SeCIS amb SECISearch.
Amb molta probabilitat l'alineament detectat en aquest scaffold és un gen homòleg a EhSEP2, el qual conté cisteïna enlloc de selenocisteïna.
Conclusió
Tots els resultats anteriors demostren que S.artica conté gens homòlegs a EhSEP2, tots ells amb cisteïna alineant-se amb la selenocisteïna de la query. Molt probablement, el seu genoma consta de 8 gens homòlegs; set d'ells es reparteixen en tres scaffolds diferents (2, 4 i 1 còpies), mentre que un vuitè té una estructura completament diferent, i contindria un gran nombre de fragments repetits els quals per splicing alternatiu donarien lloc a diverses isoformes.