Resultados

En la tabla siguiente vemos los resultados obtenidos después de haber buscado los ocho miembros de la familia GPX en el genoma de Trypanosoma cruzi.

Trypanosoma cruzi
Hits significativos E-value GFF cDNA Proteína T coffee Secis
GPX1 TBlastN Hit1 8e-18 -
Hit2 1e-17 -
Hit4 2e-12
Hit5 3e-07
GPX2 TBlastN Hit 1 2e-12 -
Hit2 2e-10
Hit3 2e-09
Hit5 4e-05
GPX3 TBlastN Hit 1 4e-16 -
Hit2 3e-15
Hit3 8e-13 -
Hit5 1e-06
GPX4 TBlastN Hit 1 5e-28 -
Hit2 2e-26
Hit3 7e-19 -
Hit4 2e-18 -
Hit5 1e-12
GPX5 TBlastN Hit 1 2e-17 -
Hit2 1e-15
Hit3 2e-10 -
Hit4 3e-10 -
Hit5 3e-06
GPX6 TBlastN Hit 1 8e-18 -
Hit2 3e-15
Hit3 9e-11 -
Hit4 4e-10 -
Hit5 4e-07
GPX7 TBlastN Hit 1 2e-21
Hit2 2e-21
Hit3 5e-21 -
Hit4 5e-21 -
Hit5 7e-10
GPX8 TBlastN Hit 1 6e-19 -
Hit2 7e-18 -
Hit3 2e-17 -
Hit4 3e-17
Hit5 1e-10


En todas las proteínas realizamos el tBLASTn con las proteínas GPX humanas como semillas. En la GPX1, hicimos el tBLASTn y obtuvimos 8 hits y consideramos que 5 podía ser significativos debido a que el E-value estaba por debajo de 0. De ellos, vimos que no salía el exonerate de los hits en posición 2, 3 y 4 y realizamos el genewise. Sin embargo, en el hit 3 nos salió un genewise muy corto por lo que dedujimos que no era una selenoproteína. En la GPX2, hicimos el tBLASTn y obtuvimos 5 hits todos con un E-value por debajo de 0 por lo que pensamos que todos podían ser significativos. Hicimos el exonerate de todos pero no salió nada en los hits 2, 3 y 4 por lo que hicimos el genewise. En el caso del hit en posición 4, el genewise fue demasiado corto y lo desestimamos. En la GPX3, hicimos el tBLASTn y obtuvimos 7 hits de los cuales 5 tenían un E-value por debajo de 0 y pensamos que podían ser significativos. Hicimos un exonerate para ver si realmente los hits eran proteínas y vimos que en los hits en posición 3 y 4 no obteníamos exonerate por lo que hicimos el genewise y rechazamos el hit 4 como posible proteína debido a que nos salía un genewise muy corto. En el resto de GPX obtuvimos un determinado número de hits al realizar el tBLASTn diferente para cada proteína (expresado en la tabla general de resultados) y siempre obtuvimos 5 hits con un e-value por debajo de 0 e hicimos el exonerate de cada uno para ver si realmente eran proteínas. En todos obtuvimos un resultado al realizar el exonerate.



Como vemos, en todos los casos obtenemos 5 hits que pueden ser significativos ya que presentan un e-value por debajo de 0. Estos 5 hits de cada tBLASTn de las diferentes proteínas siempre pertenecen a los mismos contigs. Sin embargo, el orden en el que aparecen en el tBLASTn varía (no siempre presentan la misma posición relativa) a excepción del primer hit. El primer hit, que pertenece al contig gi|70877619|gb|AAHK01000570.1|, siempre aparece en primera posición.

A partir de esto, hemos escogido 5 hits (hemos escogido entre todas las GPX la proteína más larga de cada hit) y esto lo usaremos para hacer las conclusiones. El hit 1 se considera aquel presente en el contig gi|70877619|gb|AAHK01000570.1| como ya hemos comentado, el hit 2 el presente en el contig gi|70871017|gb|AAHK01001472.1|, el hit 3 es el presente en el contig gi|70878965|gb|AAHK01000457.1| (solo presente cuando buscamos las GPX5, 6, 7 Y 8), el contig 4 es el presente en el contig gi|70879395|gb|AAHK01000424.1| y consideremos el hit 5 aquel presente en el contig gi|70838800|gb|AAHK01029133.1|.

Después de realizar el tBLASTn, el exonerate o el genewise (y obtener a partir de ellos el formato gff mostrado en la tabla), obtenemos los diferentes cDNA y las proteínas. Todas las proteínas que obtenemos son homólogas en cisteína y, como vemos en los tcoffee mostrado en la tabla, la X de cada proteína humana (que es la selenocisteína) está alineada con la cisteína o se encuentra muy cerca de ella.

Aunque las proteínas obtenidas sean homólogas en cisteína, hemos buscado los elementos secis y en algunos hits si que los hemos encontrado (aunque siempre con el patrón Loose, canonical and no canonical). Los hemos buscado debido a que pueden haber perdido la selenocisteína pero no haber perdido la estructura del elemento secis.




Discusión



Para poder extraer conclusiones, hemos escogido 5 hits (como siempre nos salían los mismos contigs, hemos escogido la proteína obtenida más larga en cada caso).

Hemos realizado un tcoffee (tcoffee.fasta) (tcoffee.html) entre los 5 hits y las 8 proteínas GPX humanas. Lo que vemos es que la X (la selenocisteína) de las selenoproteínas humanas se alinea de manera perfecta con la cisteína de las 5 proteínas obtenidas y que, las posiciones que están cerca de este aminoácido están bastante conservadas. Además, los hits 1 y 2 vemos que presentan un dominio adicional después de esta zona conservada. Este dominio aparece en estos dos hits y no en las proteínas humanas a partir de las cuales realizamos el alineamiento inicial. Eso es debido probablemente a que el alineamiento que está realizando ahora el t_coffee no es el mismo que hizo el tBLASTn al inicio y a partir de cual empezamos a deducir la secuencia de la secuencia homóloga y la proteína.

Vemos también que antes de la zona conservada, hay un dominio en el hit 1 y 4. Este dominio es bastante similar entre dichos hits. Además, vemos que los hits 1, 4 y 5 son muy parecidos entre ellos y los hits 2 y 3 son parecidos entre ellos.

Hemos realizado un tcoffee (tcoffee.fasta) (tcoffee.html) entre las 5 proteínas que hemos obtenido y las 8 proteínas predichas del año pasado en Leishmania mexicana. Como las proteínas que predijeron de la 1 a la 7 son la misma proteína, el tcoffee mostrado anteriormente nos sale con una alta homología. Hemos realizado entonces, un t_coffee (tcoffee.fasta) (tcoffee.html) con la GPX1 que encontraron y la proteína que predijeron GPX8 contra nuestros 5 hits (link).

Vemos que la zona alrededor de las cisteínas (todas las proteínas son homólogas en cisteína) está bastante conservada entre las 6 proteínas. Volvemos a ver que el hit1 y el 2 tienen un dominio adicional después de la zona conservada entre todas las proteínas y que este está bastante conservado entre los dos hits. Observamos además, un dominio adicional en los hits 1 y 4 antes de la zona conservada entre todos donde se encuentra la cisteína: este dominio está conservado entre los dos hits.

Después de la búsqueda realizada, podemos concluir que Trypanosoma cruzi presenta 5 proteínas homólogas en cisteínas y muy parecidas entre ellas. No podemos concluir a qué proteína se parece más cada hit debido a la gran similitud entre todas ellas.