首页 | 本学科首页   官方微博 | 高级检索  
     

后缀树聚类在专用搜索引擎中的应用研究与改进
引用本文:刘文婷,滕奇志. 后缀树聚类在专用搜索引擎中的应用研究与改进[J]. 成都信息工程学院学报, 2010, 25(3): 269-274
作者姓名:刘文婷  滕奇志
作者单位:四川大学电子信息学院图像信息研究所,四川,成都,610065
基金项目:教育部科学技术研究重点项目资金资助项目 
摘    要:为了提高专用搜索引擎的分类精确度和可控度,提出了一种新算法。根据现有的后缀树文本聚类,通过建立基本分类表,并结合专用搜索引擎的特点进行改进,将文本分类和文本聚类有机地结合起来,使改进后的算法能够通过人工的干预,不断修正自己的分类结果。实验表明,相比传统的文本分类算法,这种算法能通过自我修正能力不断提高分类准确度,并且计算开销和传统文本分类算法相当。因此,该算法通过结合文本分类和文本聚类算法,在专用搜索引擎结果处理上提出了新的思路。

关 键 词:计算机应用  文本分类  文本聚类  搜索引擎  后缀树  词频  降维  召回率

The Research and Improvement of STC on Dedicated Search Engine
LIU Wen-ting,TENG Qi-zhi. The Research and Improvement of STC on Dedicated Search Engine[J]. Journal of Chengdu University of Information Technology, 2010, 25(3): 269-274
Authors:LIU Wen-ting  TENG Qi-zhi
Affiliation:(Electronic Information College of Sichuan University, Institute of Image Information,Chengdu 610065,China)
Abstract:In order to promote the precision and controllability of the categorization of dedicated search engine. This paper has raised a new algorithm, which improves STC, and combines text categorization and clustering organically by building a basic clustering table. According to experiment result, this improved algorithm can continuously fix the categorization result by the manual error fixing, and cost the nearly computing time of traditional text categorization. In summary, this algorithm has raised a new thought in the result analysis of dedicated search engine by combining the text categorization and clustering.
Keywords:computer application  text categorization  text clustering  search engine  STC  term frequency  dimensionality reduction  recall rate
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号