AC090953: Una seqüència anònima de DNA
Com ja s'ha comentat anteriorment, hem de comprovar la certesa de les prediccions obtingudes pels programes utilitzats. Vam realitzar un seguit de recerques gràcies a les bases de dades ESTs humanes a partir del servidor NCBI blast, utilitzant la funció blastN i escollint només ESTs humans en la opció de tria de la base de dades. En la primera cerca es van obtenir molts ESTs els quals, tot i posseir un alt "score", només coincidien en una estreta regió de la seqüència. Es va obtenir un arxiu de sortida que va ser enregistrat com: AC090953.blast.est Per poder visualitzar el resultat amb el programa gff2ps_v0.98c es va convertir aquest últim arxiu a format gff. Degut a que molts ESTs només soporten un sol exó, seleccionarem aquells que com a mínim coincideixin en dues regions de la seqüència de manera que suportarien la presencia de més d'un exó. Els gens que estan suportats per ESTs i per tant, assumim com a veritables són:
Blast P:
Seguidament vam realitzar un BlastP al NCBI
entre les proteïnes predites pel Geneid i pel Genscan contra tota la base de dades,
amb la intenció de confirmar l'exitència d'aquestes proteïnes i veure la seva funció.
Es va realitzar amb la predicció de proteïna dels gens abans esmentats.
Per la resta de gens, els que ja havíem descartat, no fem cap BlastP, no els tenim en compte.
El següent pas realitzat fou buscar les possibles regions
promotores dels gens predits, dels quals havien trobat una proteïna
real.
*
Característiques de les proteïnes predites:
Per tal de trobar totes les característiques
de la nostra proteïna, es va fer una recerca a la base de dades de
Swissprot/TrEMBL
Número d'accés en NCBI: AY035399 Nom de la proteïna: UDP-N-ACETYL-ALPHA-D-GALACTOSAMINE:POLYPEPTIDE
Nom del Gen: GALNT 7
Dominis: Glycosyl
transferase, family2 / Ricin
B lectin domain
Llargada: 639 aa.
Pes Molecular: 73063 Da. Parells de bases: 3357 (mRNA) Teixit: Cartílag osteoartrític.
Número d'accés en NCBI:
BC008322 Nom de la proteïna: UNKNOWN ( PROTEIN FOR MGC: 15763
).
Nom del Gen: -
Dominis:Oxidoreductase
FAD/NAD(P)-binding
Llargada:312 aa.
Pes Molecular: 34854 Da.
Parells de bases: 1428 (mRNA)
Un cop realitzats els anàlisis pertinents
estem preparats per afirmar que la seqüència AC090953
que es troba en el cromosoma 3 conté 2 gens.
Els dos gens predits es troben en sentit forward i corresponen
al gen 2 i gen 4 de la predicció del geneid i gen 2
i gen 5 de la predicció del genscan. La resta de les
prediccions, gen 1 i 3 (reverse) de geneid i gen 1,3 i 4 (reverse) del
genscan van ser descartats ja que no estaven suportats pel ESTs humans.
El fet que haguem de comparar els programes de predicció de gens
amb bases de dades de ESTs és degut a que, tot i que els programes ofereixen
una aproximació coherent no permeten extreure conclusions definitives
i sempre s'ha de constatar la predicció amb una base més fiable.
Cal remarcar també que la utilització dels ESTs no dóna
una anotació 5'-3' del tot fiable i tampoc si estan anotats
en forward o en reverse.
Al analitzar les regions promotores els resultats no són els
esperats. El programa MatInspector, destinat a l'estudi del promotors,
ens fa palesa l'absència de caixa promotora TATA, la qual
no és present en cap de les dues seqüències
dels gens considerats.
Pel que fa a l'anàlisi amb el BlastP les proteïnes
predites es corresponen a la UDP-N-ACETYL-ALPHA-D-GALACTOSAMINE
pel que respecte al gen 2 i a una proteïna desconeguda,
probablement perquè encara no s'ha seqüenciat,
pel que fa referència al gen 4. Per tant, podem dir que
la seqüència AC090953 codifica per aquestes dues
proteïnes.
Per últim cal destacar que tot i que nosaltres afirmem
l'existència d'aquests dos gens l'única manera
d'estar-ne totalment segurs és mitjançant la
comprovació experimental.
Agraïments al Grup de Recerca en Informàtica
i Biomèdica de CRG, i en especial a Francisco Camara.
Els Resultats del Blast2sequence van demostrar que el CDs de les proteïnes hibriden amb un 100%
d'homologia amb la seqüència fet que va permetre concloure que les 2 proteïnes
eren a laseqüència problema AC090953.
*
Anàlisi de les regions reguladores dels gens millor predits.
Per començar a treballar sobre aquest
aspecte vam seleccionar les 200 bases anteriors a l'inici del primer exó de cada gen.
Proteïna trobada 1 (corresponent al
gen2 de geneid i gescan)- Número d'acces en NCBI: AY035399
Proteïna trobada 2 (corresponent al
gen4 de geneid i 5 de genscan)- Número d'accés en NCBI:
BC008322
Gen 2 (proteïna coneguda1): 51272 (primera base del primer exó)
Gen 4 (proteïna coneguda2): 146992 (primera base del primer exó)
Ulitització
del programa MatsInspectorv2.2
que es troba en la base de dades TRANSFAC
per trobar regions promotores.
Proteïna codificada pel gen 2 de geneid i genscan:
Número accés de SwissProt:Q96DJ5
N-ACETYLGALACTOSAMINYLTRANSFERASE 7.
Proteïna codificada pel gen 4 de geneid i 5 de genscan:
Número accés de SwissProt:Q96HP4
* Conclusions
Meritxell Pellicer Roura. e-mail: meritxell.pellicer01@campus.upf.es
Pilar Roger Ventosa. e-mail: pilar.roger01@campus.upf.es