Modelo de un meta-buscador web semántico basado en una taxonomía general de conocimiento, una ontología de dominio general, ontologías específicas y perfil de usuario

  • Hugo Ordoñez-Eraso Universidad del Cauca
  • Carlos Alberto Cobos-Lozada Universidad del Cauca
  • Elizabeth León-Guzmán Universidad Nacional de Colombia sede Bogotá

Resumen

La búsqueda web en los últimos años se ha convertido en una de las áreas de investigación más importantes delmundo, debido entre otras cosas: al crecimiento acelerado de las fuentes de información, a la necesidad de contar coninformación más relevante a los requerimientos específicos de cada usuario, a la exploración de menores tiempos debúsqueda y a la falta de usar la semántica de los términos implicados en las consultas. En este artículo se presentael modelo de un meta-buscador (usa los recursos indexados por Google, Yahoo! y Bing) web semántico llamadoXGhobi, que incorpora una taxonomía general de conocimiento, una ontología de dominio general (WordNet), unconjunto de ontologías de dominio específico y el perfil de los usuarios para mejorar la relevancia de los documentosrecuperados tanto en inglés como en español. Se describe en detalle los componentes del meta-buscador, algunasinterfaces de usuario y los resultados de su evaluación. La evaluación del sistema muestra la precisión obtenida enpruebas realizadas con usuarios.

Palabras clave: Meta-buscador web, taxonomía, ontología, WordNet, perfil de usuario

Descargas

La descarga de datos todavía no está disponible.

Biografía del autor

Hugo Ordoñez-Eraso, Universidad del Cauca

Ingeniero de Sistemas, Magíster en ComputaciónProfesor, Facultad de Ingeniería, Universidad MarianaMiembro del Grupo de I+D en Tecnologías de la Información (GTI), Universidad del Cauca

Carlos Alberto Cobos-Lozada, Universidad del Cauca

Ingeniero de Sistemas, Magíster en Informática, Ph.D. (c) en Ingeniería de Sistemas y ComputaciónProfesor Titular, Departamento de Sistemas, Facultad de Ingeniería Electrónica y TelecomunicacionesDirector del Grupo de I+D en Tecnologías de la Información (GTI), Universidad del Cauca

Elizabeth León-Guzmán, Universidad Nacional de Colombia sede Bogotá

Ingeniera de Sistemas, Magíster en Ingeniería de Sistemas, Ph.D. en Ciencias e Ingeniería de la ComputaciónProfesora Asistente, Departamento de Ingeniería de Sistemas e Industrial, Facultad de IngenieríaDirectora del Grupo de I+D en Minería de Datos (MIDAS), Universidad Nacional de Colombia sede Bogotá

Citas

Baeza-Yates, R., A. and B. Ribeiro-Neto, Modern Information Retrieval. 1999: Addison-Wesley Longman Publishing Co., Inc. 513.

Manning, C., P. Raghavan, and H. Schütze, An Introduction to Information Retrieval. 2007, Cambridge University Press: Cambridge, England.

Liaw, S.-S. and H.-M. Huang, Information retrieval from the World Wide Web: a user-focused approach based on individual experience with search engines. Computers in Human Behavior, 2006. 22(3): p. 501-517.

Massimo, M., A basis for information retrieval in context. ACM Trans. Inf. Syst., 2008. 26(3): p. 1-41.

Manning, C., P. Raghavan, and H. Schütze, Introduction to Information Retrieval. 2008, Cambridge University Press: Cambridge, England.

Eui-Hong, H., et al., Intelligent metasearch engine for knowledge management, in Proceedings of the twelfth international conference on Information and knowledge management %@ 1-58113-723-0. 2003, ACM: New Orleans, LA, USA. p. 492-495.

Mustafa, J., S. Khan, and K. Latif. Ontology based semantic information retrieval. in Intelligent Systems, 2008. IS ‘08. 4th International IEEE Conference. 2008.

Susan, G., S. Mirco, and P. Alexander, OntologyBased User Profiles for Search and Browsing, in Ontologies, S. US, Editor. 2007. p. 665-694.

Karatzoglou, A. and I. Feinerer. Text Clustering with String Kernels in {R}. in Advances in Data Analysis (Proceedings of the 30th Annual Conference of the Gesellschaft f{ü}r Klassifikation e.V., Freie Universit{ä}t Berlin, March 8--10, 2006). 2007: Springer-Verlag.

Etsioni, E.S.a.O. Multi-service search and comparison using the MetaCrawler. in 4th International World Wide Web Conference. 1995.

Dogpile.com. Different Engines, Different Results: Web Searchers Not Always Finding What They’re Looking for Online. 2007; Available from: http://www.infospaceinc.com/onlineprod/ Overlap-DifferentEnginesDifferentResults.pdf.

Carpineto, C., et al., A survey of Web clustering engines. ACM Comput. Surv., 2009. 41(3): p. 1-38.

Barry, C.L., User-Defined Relevance Criteria: An Exploratory Study. Journal of the American Society for Information Science-A, 1994. 45(1): p. 149-159.

Huang, A., et al. Clustering Documents with Active Learning Using Wikipedia. in Data Mining, 2008. ICDM ‘08. Eighth IEEE International Conference on. 2008.

Li, X. Research on Text Clustering Algorithm Based on K_means and SOM. in Intelligent Information Technology Application Workshops, 2008. IITAW ‘08. International Symposium on. 2008.

Mao-Ting, G. and W. Zheng-Ou. A New Algorithm for Text Clustering Based on Projection Pursuit. in Machine Learning and Cybernetics, 2007 International Conference on. 2007.

Fuzhi, Z., et al. An Ant-Based Fast Text Clustering Approach Using Pheromone. in Fuzzy Systems and Knowledge Discovery, 2008. FSKD ‘08. Fifth International Conference on. 2008.

Guo, Q.-l. and M. Zhang, Semantic information integration and question answering based on pervasive agent ontology. Expert Systems with Applications, 2009. 36: p. 10.

Anil, K.J., Data Clustering: 50 Years Beyond K-means, in Proceedings of the 2008 European Conference on Machine Learning and Knowledge Discovery in Databases - Part I. 2008, SpringerVerlag: Antwerp, Belgium.

Jing, L., Survey of Text Clustering. 2008.

Song, J.-f., et al., Ontology-Based Information Retrieval Model for the Semantic Web, in Proceedings of the 2005 IEEE International Conference on e-Technology, e-Commerce and e-Service (EEE’05) on e-Technology, e-Commerce and e-Service. 2005, IEEE Computer Society.

Aufaure, M.A., R. Soussi, and H. Baazaoui. SIRO: On-line semantic information retrieval using ontologies. in Digital Information Management, 2007. ICDIM ‘07. 2nd International Conference on. 2007.

Giannis, V., et al., Semantic similarity methods in wordNet and their application to information retrieval on the web, in Proceedings of the 7th annual ACM international workshop on Web information and data management. 2005, ACM: Bremen, Germany.

Beck, H.W., T. Anwar, and S.B. Navathe, A conceptual clustering algorithm for database schema design. Knowledge and Data Engineering, IEEE Transactions on, 1994. 6(3): p. 396-411.

Song, W., C.H. Li, and S.C. Park, Genetic algorithm for text clustering using ontology and evaluating the validity of various semantic similarity measures. Expert Systems with Applications, 2009. 36(5): p. 9095-9104.

Bhatia, S.K. and J.S. Deogun, Conceptual clustering in information retrieval. Systems, Man, and Cybernetics, Part B, IEEE Transactions on, 1998. 28(3): p. 427-436.

Liu, H. and H. Motoda, Computational Methods of Feature Selection. 2007: Chapman & Hall/ CRC.

Salton, G. and C. Buckley, Improving retrieval performance by relevance feedback. Journal of the American Society for Information, 1999. 41(4): p. 288 - 297.

Rich, E., User modeling via stereotypes. 1979: p. 329-354.

Ordoñez, H. and C. Cobos. Ghobi – Un Meta Buscador Web Optimizado Para Búsquedas En Español. in Quinto Congreso Colombiano de Computación. 2010. Cartagena, Colombia.

Salton, G. and C. Buckley, Term-weighting approaches in automatic text retrieval. Information Processing & Management, 1988. 24(5): p. 513-523.

Song, W. and S.C. Park, Genetic algorithm for text clustering based on latent semantic indexing. Computers & Mathematics with Applications, 2009. 57(11-12): p. 1901-1907.

Giugni O., M. and R. Loaiza B., Metodología para el desarrollo de portales centrada en el usuario: una evaluación empírica. Revista electrónica de estudios telemáticos, 2008. 7(3): p. 17.

Fisher, D.H., Knowledge acquisition via incremental conceptual clustering. Machine Learning, 1987. 2(2): p. 139-172.

Montero, Y.H., Factores del Diseño Web Orientado a la Satisfacción y No-Frustración de Uso. Revista Española de Documentación Científica, 2006: p. 239-257.

Martínez, F., Propuesta y desarrollo de un modelo para la evaluación de la recuperación de información en Internet, in Información y Documentación. 2002, Universidad de Murcia: Murcia, España. p. 283.

Cacheda, F., V. Formoso, and V. Carneiro, Performance Analysis of Distributed Web Information Retrieval Systems. Latin America Transactions, IEEE (Revista IEEE America Latina), 2007. 5(6): p. 479-485.

Can, F., R. Nuray, and A.B. Sevdik, Automatic performance evaluation of Web search engines. Information Processing & Management, 2004. 40(3): p. 495-514.

Chen, S., D. Alahakoon, and M. Indrawan. Building an Adaptive Hierarchy of Clusters for Text Data. in Computational Intelligence for Modelling, Control and Automation, 2005 and International Conference on Intelligent Agents, Web Technologies and Internet Commerce, International Conference on. 2005.

Zhao, L., et al. An improved measuring similarity for short text snippets and its application in clustering search engine. in Machine Learning and Cybernetics, 2008 International Conference on. 2008.

Forsati, R., et al. Hybridization of K-Means and Harmony Search Methods for Web Page Clustering. in Web Intelligence and Intelligent Agent Technology, 2008. WI-IAT ‘08. IEEE/WIC/ ACM International Conference on. 2008.

Garcia, E. RSJ-PM Tutorial: A Tutorial on the Robertson-Sparck Jones Probabilistic Model for Information Retrieval. 2009; Available from: http://www.miislita.com/information-retrievaltutorial/information-retrieval-probabilisticmodel-tutorial.pdf.
Publicado
2011-06-15

Artículos más leídos por el mismo autor(es)