首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
为了提高专用搜索引擎的分类精确度和可控度,提出了一种新算法。根据现有的后缀树文本聚类,通过建立基本分类表,并结合专用搜索引擎的特点进行改进,将文本分类和文本聚类有机地结合起来,使改进后的算法能够通过人工的干预,不断修正自己的分类结果。实验表明,相比传统的文本分类算法,这种算法能通过自我修正能力不断提高分类准确度,并且计算开销和传统文本分类算法相当。因此,该算法通过结合文本分类和文本聚类算法,在专用搜索引擎结果处理上提出了新的思路。  相似文献   

2.
空间聚类是空间数据挖掘的重要方法,而K-Medoids是一种常用的空间聚类算法。K-Medoids聚类算法存在初始点选择问题,而且计算复杂。为了提高算法的有效性和时间效率,本文结合模拟退火算法思想,改进了传统的K-Medoids算法PAM,提出一种基于GPU计算的并行模拟退火PAM算法。类比矩阵乘法运算,定义了一种新的矩阵计算方法,可以有效减少数据在GPU全局内存和共享内存之间的传输,提高了算法在GPU中的执行效率。利用模拟退火算法搜索聚类中心点,保证了聚类结果的全局最优性。基于不同的数据集,将串行和并行模拟退火PAM算法以及已有的遗传PAM算法进行比较,结果表明并行模拟退火PAM算法聚类结果正确,且时间效率高。最后,应用本文改进算法对贵州省安监系统的安全监管隐患数据进行聚类分析,发现了隐患聚集中心,相关结果对政府的决策具有一定的实际应用价值。  相似文献   

3.
为了克服K-Means算法对初始类簇中心、噪声点、孤立点敏感缺点,将K-Means算法和人工鱼群算法结合,提出了改进的人工鱼群聚类算法。在该算法中将类簇中心看作一条人工鱼,让每条人工鱼执行随机、觅食、聚群、追尾行为中的一种,并将更新后的位置作为K-Means算法的初始值,不断重复人工鱼的位置更新和K-Means操作,直到算法结束。由于在算法中加入了动态移动步长和全局人最优人工鱼位置,聚类的收敛精度和速度都得到提高。使用iris和glass数据集进行聚类时,与其他算法相比,文中的收敛时间缩短2.6%,精度提高1.36%。  相似文献   

4.
为解决传统的K-means算法需要人工确定K值和随机选取初始簇中心容易陷入局部最优的问题,提出自适应簇中心选择算法.首先将任意选取的一篇文档和与其距离最远的文档作为初始簇中心聚类得到2个大类并重新计算簇中心,然后,找出与新的簇中心距离大于设定阈值的文档并依据文档距离判断是否需要增加新的类别,迭代上述过程确定聚类簇中心及类别数.实例验证结果表明,提出的算法与改进的K-means算法相比,在聚类结果的质量和算法收敛的速度上都有明显的改善.  相似文献   

5.
基于云模型和FCM聚类的遥感图像分割方法   总被引:7,自引:0,他引:7  
模糊C均值算法由于具有良好的聚类性能而被广泛应用于图像分割领域,但聚类中心的初始化问题一直影响着该算法的运行效率。好的初始聚类中心,可以使算法很快收敛于最优解,而不合适的初始聚类中心,不仅需要更多的迭代次数,而且还可能使算法最终收敛于局部最优解。文章结合云模型和FCM(模糊C均值)聚类算法,提出了一种遥感图像分割的新方法。利用云变换解决模糊C均值聚类算法的初始化中心选择问题,可以根据样本特性自动确定聚类中心值及个数,并以较少的迭代次数收敛到全局最优解,提高了模糊C均值遥感图像分割方法的效率,具有较好的稳定性和鲁棒性。文章选取三幅TM遥感图像作为样本,分别利用云模型的FCM方法和传统的FCM方法对样本进行分割实验,实验表明采用云模型的FCM方法不仅能够取得较好的分割效果,而且大大减少了使算法收敛的迭代次数,提高了分割的效率。  相似文献   

6.
提出了一种基于聚类分析和Kalman 滤波相结合的多传感器航迹起始算法.根据多传感器同一时刻对同一目标的观测值在空间呈团状的特征,运用聚类的方法解决数据融合问题.采用一种改进的粒子群(PSO)优化算法对多传感器观测数据进行聚类,结合聚类中心和目标预测值,应用Kalman滤波器估计目标状态,从而实现航迹起始.实验结果表明,该方法有效.  相似文献   

7.
空间离群是指空间邻域中属性特征值明显不同于其他对象的空间对象,空间数据离群挖掘能为人们提供很多有趣的信息,但空间数据具有复杂的拓扑关系、方位关系和度量关系等空间特征,传统的面向事务型数据库的离群挖掘算法并不适用于空间数据库。本文提出了基于MST(Minimum Spanning Tree,最小生成树)聚类的空间数据离群挖掘算法(SOM);有机结合了最小生成树理论与密度的方法,既体现了空间离群的局部特性,又体现了空间离群的孤立程度。该算法通过MST维护空间数据的基本空间结构特征,通过打断MST中最不一致的边形成MST聚类,不仅具有密度的聚类方法能够聚集非球状簇和分布不均的数据集的特点,而且聚类结果不依赖于用户参数的选择,因此,离群挖掘结果更合理。最后,通过实例数据,验证了该算法的有效性,它适用于大规模空间数据集的离群挖掘。  相似文献   

8.
针对传统EEMD进行信号分解时信噪比低和部分模态混叠的问题,提出基于K均值聚类的CORS高程时间序列改进分析方法。通过添加正负白噪声的EEMD提高信号分解信噪比,基于K均值聚类方法对EEMD迭代过程中分解的各个IMF分量进行聚类分析。实验结果表明,该方法提高信噪比3%以上,基于正交指数的分解精度提高26%以上,聚类结果能够解决IMF中近似的0.5 a、1 a、2 a周期信号的模态混叠问题。  相似文献   

9.
在重力反演中,传统的反演方法通常会生成平滑的反演结果,即不同的地质单元之间没有明显的边界。为了提高反演结果的空间分辨率和反演精度,采用模糊C均值聚类算法(fuzzy C-means,简称FCM)解决上述问题。但当异常体体积远小于围岩体积以及目标函数FCM聚类项权重系数选择不当时,该算法容易造成异常体反演结果均匀收缩,导致反演精度降低,甚至反演失败。反演失败的主要原因通常是因为异常体体积比围岩体积小很多。为此在反演的目标函数FCM聚类项中引入了缩放因子,用以平衡模型参数对每个聚类的隶属度,减小异常体体积远小于围岩体积的影响。通过建立缩放指数ek与归一化的聚类中心与实际聚类中心间距离Snormal的简单正相关关系,使得缩放因子ρk随反演过程不断更新,从而显著降低了目标函数FCM聚类项权重系数的选择难度,避免了异常体反演结果均匀收缩的问题,增强了反演的稳定性。理论重力异常数据反演数值试验和实际数据反演表明,相比于此前的FCM方法,改进算法有更高的反演稳定性和反演精度。  相似文献   

10.
青藏高原数字照片植被覆盖度自动算法与应用   总被引:2,自引:0,他引:2  
覆盖度是植被评价的重要指标,也是遥感反演的关键参数。估算植被覆盖度的常用方法是目测法,但这种方法受观测人员的主观影响。近年来有研究人员利用冬小麦垂直数字照片的HLS颜色空间的色度特征,设计了自动提取覆盖度算法,具有较高的计算精度。但青藏高原植被颜色丰富多样,下垫面背景色彩差异很大,这种常规覆盖度自动提取算法存在困难。论文分析了青藏高原地表垂直数字照片的图像颜色特征,发现超绿色算法对绿色植被比较敏感,能够增强植被和背景的灰度差异,有效抑制土壤背景干扰。并采用K均值聚类算法,设计了青藏高原植被覆盖度的自动提取软件。通过将覆盖度自动提取结果和人工监督分类进行比较,两者误差在5%以内。此外,通过分析分类后的结果图像,提出了进一步改进的方法。  相似文献   

11.
SVM在文本自动分类中的应用   总被引:3,自引:0,他引:3  
支持向量机(S、M)是基于统计学习理论的一种新的模式识别技术。介绍了文本自动分类技术的主要研究概况,并进一步从支持向量机的原理及其在文本分类中的优点等方面阐述了支持向量机在文本分类中的应用。  相似文献   

12.
为了使桌面搜索引擎具有良好的可扩展性和执行效率,满足用户对信息的全文检索要求,在研究桌面搜索引擎基本构件的基础上,架构出可扩展性桌面搜索引擎的系统体系结构,探讨了在Visual C++环境中如何基于组件编程的方法设计各关键构件、采用倒排索引和多线程处理等关键技术。结果表明该桌面搜索引擎可扩展性强并具有良好的效率和效果。  相似文献   

13.
网络环境下,如何让用户快速发现所需数据是地学数据共享平台长期面临的挑战之一。本文基于国家地球系统科学数据共享平台网站服务器日志数据获取用户搜索行为及数据集访问行为,使用聚类算法挖掘用户行为模式,并基于会话聚类 模式开发在线搜索和访问预测算法。在数据预处理阶段,对原始服务器日志数据进行清洗、用户识别、用户会话识别、搜索词提取。在模式挖掘阶段,采用DBSCAN算法对会话进行聚类。考虑到会话向量值的二元性,聚类算法中的距离采用Jaccard距离函数计算。视每个会话聚类包含的搜索词集合为一个文本,所有用户历史搜索词集合为语料库,统计各聚类中搜索词的TF-IDF值。在线搜索推荐,以搜索词检索各聚类中TF-IDF值,返回TF-IDF值最高的搜索词所属聚类,并给出该聚类的高频项目作为推荐。在线访问推荐,则以用户实时访问向量为查询向量,计算该向量与聚类中心的聚类。根据聚类排序,给出距离最近的聚类,并产生该聚类中高频项目作为推荐。实验结果表明基于TF-IDF和聚类的搜索推荐有较高的准确率和召回率,访问推荐效果基于高频统计的推荐有较大提高。研究可得出以下结论:① 地学共享网用户访问和搜索行为体现了专业性的特点,其行为较普通网站用户可预测性更好;② 对于地学数据共享用户行为预测,需明确定义用户行为,并采用合适的距离函数描述行为相似性;③ 通过搜索词TF-IDF值来预测用户数据需求的方法可行,以此产生的推荐可作为搜索结果的补充。本研究可服务于地学领域数据共享平台建设,提高共享服务质量,也可为其他领域科学数据共享提供技术方法借鉴。  相似文献   

14.
平滑在语言模型的信息检索中很重要,它用来调整语言模型的参数使得所估算的参数更精确匹配语言模型。除了优化参数估计之外,一个必不可少的功能是避免语言模型中的未见项被赋予零概率。传统的平滑方法补偿词概率通常是使用一个背景集合词库,但是这样的补偿方法过于平均化而不能考虑上下文关系从而不能提高检索性能。提出了一种新的上下文相关语义平滑方法,这种新方法使用了文本分类技术。  相似文献   

15.
网络爬虫是搜索引擎的重要组成部分。针对目前聚焦爬虫搜索策略的不足,提出了一种新的搜索策略解决方案。在搜索过程中对适应度高于或低于种群平均适应度的个体采用不同的交叉概率和变异概率来扩大爬虫的爬取范围、增加新个体,并通过改进遗传算子,提高聚焦爬虫的搜索效率。实验证明,基于自适应遗传算法的聚焦爬虫在一定程度上解决了传统遗传算法的"早熟"问题,而且能够爬取到更多主题相关的网页和相关度高的网页。  相似文献   

16.
网络文本中所包含的相关信息目前已成为公共安全事件紧急救援与影响评估的重要信息源。现有的方法虽然可定向地提取文本信息中事件的各类要素信息,但由于缺乏面向事件的整体建模与解析框架,难以从网络文本中获取系统的事件要素的结构化信息,即所提取的事件要素信息要么不够完整,要么与目标事件不匹配,由此产生的遗漏与谬误难以支撑针对公共安全事件信息的系统分析。为解决该问题,本文提出了面向公共安全事件的网络文本大数据结构化理论框架,首先,建立了公共安全事件的语义框架,并以地震事件为例构建了相应的结构化表结构;其次,应用训练语料的关联标注解决了事件要素与事件无法匹配的难点;最后,通过使用可融合关联信息的文本解析算法,系统提取了事件类型、事件名称、事件时间、事件位置及其他属性,基本实现了网络文本中不同事件信息的结构化。本文以云南邵通鲁甸地震为例,展示了地震事件的网络文本信息的结构化过程与结果,为分析地震所受的关注程度以及救援状况提供了重要参考。在上述研究的基础上,开发了面向公共安全事件的网络文本信息挖掘系统,展示了地震事件文本的结构化解析以及由此实施的事件关注度分析。  相似文献   

17.
几千年来针灸处方数据的积累,为现代医务工作者提供了丰富的针灸临床经验,但是,如何借鉴海量的针灸处方生成有价值、最优的针灸处方,则是现代针灸学致力于研究的重点。搜集了跨度几千年的大部分针灸处方数据,在对其进行结构化的基础上,利用遗传算法的思想对每一朝代单独聚类产生各自的适应度函数,然后再对各个朝代的适应度函数按其权重组合形成总的适应度函数,最终通过适应度函数取值的高低获得优化后的针灸处方。将算法用于开发针灸处方决策支持系统,经临床实践,其寻优结果具有较高的适用价值。  相似文献   

18.
新冠肺炎疫情作为国际性突发公共卫生事件引发了社会媒体的高度关注。微博评论内容是用户对疫情中介性事件的认知、态度、倾向和行为的汇集,为基于用户情感分析的舆情演化研究提供了高现势性和高时序性的文本语料。本文以2020年1月23日至4月8日期间“人民日报”每日疫情通报的微博评论为信息基底,首先使用中文自然语言处理工具SnowNLP对语料进行情感倾向性抽取,完成正负向的情感分类,然后基于Single-Pass聚类算法实现文本语料的聚类分析,探索疫情热点话题,最后利用Louvain社团发现算法实现舆情被关注度的信息挖掘。① 时间维度上,每日情感趋势表明用户经历了焦虑害怕(1月24日—2月18日)、平稳自信(2月19日—3月15日)和紧张担忧(3月16日—4月8日)的情感更迭阶段;② 空间维度上,用户参与数量、所在地情绪状态和评论地情绪投射等关联分析显示不同行政区的疫情关注度和情感状态存在明显差异,疫情越严重地区的微博用户,其参与度越高且情绪状态与投射值越低。该研究通过引入自然语言处理技术和社团网络算法,构建出一种面向社交媒体评论文本数据的舆情分析方法框架,为重大公共事件的舆情研究提供了理论支持和创新思路。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号