Análisis de algoritmos basados en técnicas de conglomerado aplicados en el alineamiento y comparación de secuencias de proteínas

CONCEPCIÓN MENDIETA BALTODANO

Resumen


La Bioinformáticatiene como objetivo el desarrollo y uso de técnicas matemáticas y computacionales para ayudar a resolver problemas referentes ala Biología.

En la actualidad existen muchas técnicas de Minería de Datos que han posibilitado el desarrollo de ésta, entre las que sobresalen la Clasificación y el Conglomerado  con la finalidad de construir herramientas de análisis más eficientes. No obstante, dada la complejidad que involucra la búsqueda de información interesante en las bases de datos biológicas, desde una perspectiva proteínica, una necesidad en la ciencia actual recae en demandar mayor capacidad de almacenamiento y tratamiento de los datos recopilados a través de los años en los distintos experimentos científicos de orden biológico. Esta necesidad, por tanto, ha implicado la afloración de muchos algoritmos afines al problema de estudio. Sin embargo la calidad de resultados varía considerablemente al aplicar  diversos algoritmos a un mismo conjunto de datos proteínicos.

En este documento se presenta un análisis de algunos algoritmos de Conglomerados aplicados en áreas específicas de la Bioinformática, la Proteómica, desde el punto de vista de alineamiento y comparación de secuencias de proteínas. Para tal fin, se examinaron tres algoritmos muy populares por su amplio uso, siendo estos: ClustalW, Muscle y T-Coffee.

Dado los resultados experimentales se determinó que el mejor algoritmo,  desde el punto de vista de tiempo de ejecución  fue Muscle, pero T-Coffee presentó mayor calidad y claridad de los alineamiento resultantes. 


Texto completo:

PDF

Referencias


Apuntes de los cursos de Bases de Datos Avanzadas y Minería de Datos Avanzadas impartidas por el Dr. Carlos González Alvarado en el Instituto Tecnológico de Costa Rica durante el II semestre del 2005 y I semestre del 2006.

Curso de Análisis de secuencias de proteínas y genes del 9 al 13 de octubre del 2006, ITCR.

[Alts91] Altschul, S., et al, “ Aminoacid substitution matrices from an information theoretic perspective. J. Mol. Biol, 219:555565. 1991.

[Alts97] Altschul, S., et al, “Gapped BLAST and PSI-BLAST a new generation of protein DB search programs”. Nucleic Acids Res. 25:3389-3402. 1997.

[Anke99] Ankerst, Mihael. Et al, “OPTICS: Ordering Point To Identify the Clustering Structure”. Institute for Computer Science, University of Munich, Germany 1999.

[Carr88] Carrillo, H., et al, “The multiple sequence alignment problems in Biology”. SIAM J.Appl.Math, 48:10731082. 1988.

[Corp88]Corpet, F., et al, “Multiple sequence alignments with hierarchical clustering”. Nucleic Acids Res. 16:1088110890. 1988.

[Day05] Day. A Roberta, “Cómo escribir y Publicar una Tesis”. 3ª.ed. Washington, D.C.: OPS, © 2005. (publicación científica y técnica No. 598).

[Dayh78] Dayhoff, M.O., et al. “A model for evolutionary change in proteins”. editor, Atlas of Protein Sequence and Structure, volume 5, pags 345-352. 1978.

[Drad98] Bradley, P. et al, “Scaling Clustreing Algoritms to Large Databases”, Microsoft Research. USA 1998.

[Furh98] Fuhrman’s, et al. “Mining the gene expression matrix: Inferring gene relationships from large scale gene expression data. Information Processing in Cells and Tissues”, 1998.

[Gant99] Ganti, V., et al, “CACTUS: Clusterig Categorical Data Using Summaries, Department of Computer Science”. University of Wisconsin-Madison, USA 1999.

[Giba99] Gibas, C., et al. “Developing Bioinformatics Computer Skills.” U.S.A. Impreso Publisher: O'Reilly, Abril del 2001.

[Gogl04] Goglino, D. “Minería de datos”, acceso en línea, [Disponible en: http://www.infonews21.com/columnas/goglino/goglino.htm]. Consulta (04-23-2006).

[Guha98] Guha, Sudipto. Et al, “CURE: An Efficient Clustering Algorithm for Large Database”. Stanford University and Bell Laboratories, 1998.

[Guha99] Guha, S., et al, “ROCK: A Robust Clustering Algorithm for Categorical Attributes”. Stanford University and Bell Laboratories, 1999.

[Hhei98] Sheikholeslami, G., et al, “WaveCluster: A Multi-Rsolotion Clustering Aproach for Very Large Spacial Databases”.Computer Science Dep. SUNY at Buffalo, NY, 1998.

[Herr04] Herrera, F., et al. “Estudio Empírico preliminar sobre los tests estadísticos más habituales en el aprendizaje Automático”. Departamento de CCIA. ETSI Informática. Universidad de Granada, diciembre del 2004 [ref. 10-07-2006]. Disponible en Web: [http://www.lsi.us.es/~riquelme/red/Capitulos/LMD35.pdf] Consulta (07-23-2006).

[Higg92] Higgins, D., et al, “Fast and sensitive multiple sequence alignments on a microcomputer”. CABIOS, 5:151-153. 1992.

[Huer00] Huerta, M., et al, “Working definition of bioinformatics and computational biology”. U.S National Institute of Health, 2000.

[Kary99] Karypis, George., et al, “CHAMELEON: A Hierarchical Clustering Algorithm Using Dynamic Modeling”, Deparment of Computers Science and Engineering. University of Minnesota, USA 1999.

[Mora05] Morales E. “Descubrimiento de conocimientos en bases de datos”, acceso en línea [Disponible en: http://w3.mor.itesm.mx/~emorales/Cursos/KDD/node9.html]. Consulta (04-01-2006).

[Ng94] Ng, Raymont., et al, “CLARANS: Efficient and Effective Clustering Methods for Spacial Data Mining”, Department of Computer Science. University of British Columbia Vancouver Canada 1994.

[Need70] Needleman, S., et al, “A general method applicable to the search for similarities in the amino acid sequences of two proteins”. J. Mol. Biol. 48:444-453. 1970.

[Notr00] Notredame, C., et al, “T-Coffee: A novel method for multiple sequence alignments”. Journal of Molecular Biology, Vol 302, pp205-217, 2000

[Pcte04] El Portal de la ciencia y la Tecnología en Español, “Genómica Funcional”, acceso en línea, año 2004/Lexur. [Disponible en: http://www.solociencia.com/biologia/bioinformatica-genomica-funcional.htm]. Consulta (03-01-2006)

[Pear88] Pearson, W., et al, “Improved tools for biological sequence comparison”. Proc. Natl, Acad. Sci. USA 85:24442448. 1988.

[Robe04] Robert, Edgar., et al. “MUSCLE: a multiple sequence alignment method with reduced time and space complexity.” BCM Bioinformatics. 2004

[Sanc99] Sánchez, M., et al. “Bioinformática y salud: impactos de la aplicación de las nuevas tecnologías para el tratamiento de la información genética en la investigación biomédica y la práctica clínica. Informática y Salud”, acceso en línea 1999;(19). [Disponible en: http://www.seis.es/i_s/i_s19/i_s19l.htm]. Consulta (05-08-2006).

[Snea73] Sneath, et al. “Hierarchical Clustering”, 1973

[Thom94] Thompson, J., et al. “CLUSTAL W: improving the sensitivity of progressivemultiple sequence alignment through sequence weighting,position-specific gap penalties and weight matrix choice”. European Molecular Biology Laboratory, Heidelberg, Germany 94.

[Weis98] Weiss, S., et al. “Predictive data mining: a practical guide”. [Disponible en: http://citeseer.ist.psu.edu/context/961019/0 ]. Consulta (05-23-2006).


Enlaces refback

  • No hay ningún enlace refback.