首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 406 毫秒
1.
为解决传统的K-means算法需要人工确定K值和随机选取初始簇中心容易陷入局部最优的问题,提出自适应簇中心选择算法.首先将任意选取的一篇文档和与其距离最远的文档作为初始簇中心聚类得到2个大类并重新计算簇中心,然后,找出与新的簇中心距离大于设定阈值的文档并依据文档距离判断是否需要增加新的类别,迭代上述过程确定聚类簇中心及类别数.实例验证结果表明,提出的算法与改进的K-means算法相比,在聚类结果的质量和算法收敛的速度上都有明显的改善.  相似文献   

2.
空间聚类是当前地球信息科学与计算机科学领域共同关注的热点问题之一,常用来揭示空间数据分布规律以及发现空间数据异常。空间聚类有效性评价即对空间聚类结果进行定量、客观的评判,对于在实际应用中针对不同数据集选取最优的空间聚类算法以及确定最佳的聚类参数具有重要意义。首先选取并编程实现了数种空间聚类有效性评价方法,包括聚类中心的距离矩阵、距离方差、改进Hubert's统计、Davies-Bouldin、Calinski-Harabasz和基于信息论的空间聚类有效性评价方法等,同时提出了顾及簇间分离度和簇内紧凑度的空间聚类有效性评价方法,并通过试验分析验证了其可行性及有效性。然后在K-Means法对数据集进行聚类的基础上,对比研究了前述聚类有效性评价方法的特性及优缺点。  相似文献   

3.
基于云模型和FCM聚类的遥感图像分割方法   总被引:7,自引:0,他引:7  
模糊C均值算法由于具有良好的聚类性能而被广泛应用于图像分割领域,但聚类中心的初始化问题一直影响着该算法的运行效率。好的初始聚类中心,可以使算法很快收敛于最优解,而不合适的初始聚类中心,不仅需要更多的迭代次数,而且还可能使算法最终收敛于局部最优解。文章结合云模型和FCM(模糊C均值)聚类算法,提出了一种遥感图像分割的新方法。利用云变换解决模糊C均值聚类算法的初始化中心选择问题,可以根据样本特性自动确定聚类中心值及个数,并以较少的迭代次数收敛到全局最优解,提高了模糊C均值遥感图像分割方法的效率,具有较好的稳定性和鲁棒性。文章选取三幅TM遥感图像作为样本,分别利用云模型的FCM方法和传统的FCM方法对样本进行分割实验,实验表明采用云模型的FCM方法不仅能够取得较好的分割效果,而且大大减少了使算法收敛的迭代次数,提高了分割的效率。  相似文献   

4.
基本人工鱼群算法将基于鱼群行为的人工智能思想引入到解决函数优化的问题中,根据自然界中鱼类寻找食物的行为特点,推演出人工鱼的四种行为模型:随机行为、觅食行为、聚群行为、追尾行为。该算法具有对初值参数选择不敏感、鲁棒性强、简单易实现等优点。本文的全局人工鱼群算法是针对基本人工鱼群算法运算速度慢、求解精度低和容易陷入局部极值的缺陷而提出的。该算法在觅食、聚群、追尾行为中用历史全局最优人工鱼的位置和感知区域内较优位置的和向量代替感知区域内较优位置。这样不仅缩短了人工鱼向最优解移动的时间,也提高了求解最优值的精度和速度。仿真结果表明,该算法在函数优化方面的优化性能高于基本人工鱼群算法。  相似文献   

5.
现有OD流向聚类多将O点和D点相分离或者将OD流向看作4维空间的数据点进行聚类处理,忽视了流向长度、方向、时间对流向聚类的影响。本文以流向作为研究对象,提出一种基于流向间相似性度的逐级合并OD流向时空联合聚类算法。首先在充分研究OD流向的空间信息和时间信息的基础上,构建合理的OD流向间时空相似性度量方法,对OD流向间的时空相似性进行量化;然后提出逐级合并OD流向聚类策略,优化类簇合并的顺序,以减少层次聚类的时间开销,实现OD流向的时空联合聚类。以成都市的滴滴出行OD数据和纽约市出租车数据为例对本文方法进行了验证,结果表明:① 本算法聚类获得的流向类簇不仅带有空间特征还具备时间特征;② 在不同参数下本方法可以得到不同时空尺度的聚类结果;③ 与现有较高水平的流向聚类算法相对比,本文方法的聚类效果更好。这体现在流向类簇内部的流向之间有着充分的相似性,以及本文方法不仅可以提取出显著的流向类簇,还可以提取出非热点区域之间的流向类簇。本算法顾及空间因素和时间因素,可以通过调整时空相似性度量方法中的时间参数和空间参数以实现不同时空尺度的流向聚类,这使得从不同时空角度研究城市居民出行模式成为可能。本文提出的OD流向时空联合聚类算法从联合时间信息和空间信息的角度获得对运动数据的新见解,有助于合理全面地研究居民的移动模式、区域之间的空间联系、已知出行结构的确定以及出行目的的探索,是后续一系列分析工作的基础。  相似文献   

6.
空间聚类是空间数据挖掘的重要方法,而K-Medoids是一种常用的空间聚类算法。K-Medoids聚类算法存在初始点选择问题,而且计算复杂。为了提高算法的有效性和时间效率,本文结合模拟退火算法思想,改进了传统的K-Medoids算法PAM,提出一种基于GPU计算的并行模拟退火PAM算法。类比矩阵乘法运算,定义了一种新的矩阵计算方法,可以有效减少数据在GPU全局内存和共享内存之间的传输,提高了算法在GPU中的执行效率。利用模拟退火算法搜索聚类中心点,保证了聚类结果的全局最优性。基于不同的数据集,将串行和并行模拟退火PAM算法以及已有的遗传PAM算法进行比较,结果表明并行模拟退火PAM算法聚类结果正确,且时间效率高。最后,应用本文改进算法对贵州省安监系统的安全监管隐患数据进行聚类分析,发现了隐患聚集中心,相关结果对政府的决策具有一定的实际应用价值。  相似文献   

7.
针对栅格数据,传统聚类方法大都基于专题属性进行聚类,分裂了栅格对象的空间特性与专题属性,而兼顾空间与专题属性的现有空间聚类方法又存在算法复杂、参数设置多等问题,因此本文提出了一种面向栅格的空间-属性双重约束聚类算法(A Raster-oriented Clustering Method with Space-Attribute Constraints, RoCMSAC)。RoCMSAC利用栅格数据空间邻域和空间连通特性,重新定义栅格簇的相似性度量准则,通过属性均质簇生成,空间相邻栅格簇合并和空间邻近栅格簇合并3个步骤对栅格数据进行空间-属性双重约束聚类。利用太平洋海域海表温度栅格数据对算法的可行性以及有效性进行验证,并与现有算法进行对比分析。通过实例验证与对比发现:① RoCMSAC方法能够保证栅格簇空间域的邻近性和属性域的均质性;② RoCMSAC方法可发现复杂形状的栅格簇,且算法时间复杂度低,需输入参数较少。  相似文献   

8.
轨迹聚类是空间数据挖掘领域的一个研究热点,对城市交通规划、路网结构提取与更新等具有重要意义。轨迹聚类包括轨迹相似性度量和聚类参数设置2个核心问题。然而,由于轨迹的形态结构特征复杂,现有轨迹相似性度量指标存在对噪声敏感或未充分考虑轨迹运动方向一致性的问题,且大多数聚类算法仍需人为设置参数,聚类挖掘结果的质量受到用户主观经验的影响。针对上述问题,本文提出了一种融合多特征的移动轨迹自适应聚类方法。首先,通过融合轨迹的空间邻近性和运动方向特征定义了一种对噪声鲁棒的轨迹相似性度量指标—DSPD距离;在此基础上,通过扩展Ward层次聚类方法提出了一种基于中心轨迹概念的空间层次聚类算法,该算法使用DSPD距离作为相似性度量指标,利用聚类特征曲线自动确定最佳聚类参数。以11组模拟轨迹数据和武汉市真实轨迹数据为例进行实验与分析,结果表明,本文方法在顾及空间邻近性的基础上,可以有效区分不同移动方向的轨迹簇,同时,利用轨迹数据特征自动确定聚类参数,降低了挖掘结果的主观性。  相似文献   

9.
大规模点要素注记自动配置问题是地图注记的难点之一,主要受限于时间效率和注记配置质量。针对该问题,本文首先提出一种椭圆形多方位多级注记待选方位配置方案,使其参数化、多元化。其次,结合点要素空间分布特征,提出一种以聚类分组的蚁群算法,并讨论和优化核心参数,实现大规模点要素的注记快速配置。实验表明,该算法计算效率明显提升,算法性能稳定。针对注记密度在5%~30%随机分布点要素的地图,其相比传统蚁群算法算法效率提高73.2%;同时,该算法的注记结果质量比传统蚁群算法注记结果质量好,注记适应度提升8.0%。实验采用抚顺县集体土地所有权界址点数据进行验证,结果表明效率提升86.7%,且注记适应度提升14.6%。本算法适用于点要素规模大、点簇疏密变化差异大的点要素注记自动配置问题的快速求解。  相似文献   

10.
【目的】针对天牛群搜索算法易陷入局部最优及搜索精度较低等缺陷,提出一种基于二阶振荡自适应变异的天牛群搜索算法。【方法】该算法引入二阶振荡环节增加算法的全局探索能力和局部开发能力。采用正余弦搜索思想对天牛个体进行位置更新,使得天牛个体可充分的利用自身与最优位置的差值信息逐渐趋近最优解。同时引入自适应t分布变异算子来增加种群的多样性,避免算法陷入局部最优。【结果与讨论】对高维单峰函数、高维多峰函数的仿真实验结果表明,改进的算法有效地提高其搜索精度、收敛速度及鲁棒性,克服其易陷入局部最优的缺陷。将改进天牛群算法应用于BP神经网络权值及阈值优化对船舶纵摇运动姿态进行预测,并于BP网络、BSO-BP网络及PSO-BP网络的预测结果进行比较,精度分别提升85.7%、74.6%和77.2%。改进天牛群搜索算法在实际工程应用中具有一定的优越性。  相似文献   

11.
挖掘科学数据是当今数据库系统研究和应用领域内的一个热点问题。聚类是数据挖掘中的核心问题。K-中心算法的执行结果受到初始选择的中心点的影响,而且常常只能终止于局部最优,按照基于密度聚类算法的思想,聚类分析最终的中心点都是很“密的(dense)”点,结合这两种算法,如果初始选择的中心点就是“密的(dense)”点,并且这几个初始的中心点彼此相异度比较大,那就会减少算法执行的时间,并且提高聚类结果的准确度。  相似文献   

12.
手机的普及使手机定位数据成为分析个体时空行为特征的新兴重要数据源之一,并被逐渐应用到人口管理、城市规划、交通分析和流行病防控等众多领域的研究中。从手机定位数据中识别个体的停留区域是众多基于手机定位数据研究的重要基础环节。然而,当前常用的手机定位数据定位精度相对较低,且往往存在定位震荡和定位漂移导致的数据噪声,这些因素增加了从手机定位数据中识别停留区域的难度。为了提高从手机定位数据中识别个体停留区域的准确性,本研究结合个体行为的时空连续性,提出了一种基于滑动窗口的增长聚类算法。实验结果显示,相较常用的ST-DBSCAN算法和SMoT算法,对于采样时间间隔稀疏的手机定位数据,本研究提出的滑动窗口聚类算法在准确率方面的提升幅度最大可以达到35%。由于隐私问题,当前研究和应用中使用的大规模手机定位数据集中的时间分辨率往往较低,因此,本研究提出的滑动窗口聚类算法具有较为广泛的应用场景,可增强基于手机用户停留区域的众多研究结果的可靠性,为手机定位数据的广泛合理应用提供关键技术支撑。  相似文献   

13.
内嵌空间聚类算法的分区地理元胞自动机建模与应用   总被引:1,自引:0,他引:1  
传统的地理元胞自动机(Geo-Cellular Automata;GeoCA)模型,大多采用统一的转换规则驱动元胞空间内的所有元胞进行演变。然而,许多地理现象都存在着空间异质性,统一的元胞转换规则忽略了空间异质性的存在。针对这一问题,本文提出了空间聚类的分区地理元胞自动机模型,采用空间聚类算法对元胞空间进行分区,对不同的分区分别求取转换规则,以此来提高地理元胞自动机的模拟精度。以杭州市为案例区,采用本文提出的空间聚类的分区地理元胞自动机模型,对研究区2000-2005年的城市用地变化进行了模拟。结果表明:与采用统一转换规则的GeoCA相比,引入空间聚类算法的分区GeoCA具有较高的模拟精度,尤其是在空间形态和整体结构上,具有较好的模拟效果。  相似文献   

14.
In order to solve the problems of multi-parameter,multi-extreme and multi-solution in the nonlinear iterative optimization process of Rayleigh wave inversion,the artificial bee colony(ABC)algorithm is selected for global nonlinear inversion.The global nonlinear inversion method does not rely on a strict initial model and does not need to calculate the derivative of the objective function.The ABC algorithm uses the local optimization behavior of each individual artificial bee to finally highlight the global optimal value in the colony,and the convergence speed is faster.While searching for the global optimal solution,an effective local search can also be performed to ensure the reliability of the inversion results.This paper uses the ABC algorithm to perform Rayleigh wave dispersion inversion on the actual seismic data to obtain a clear undergrounding of shear wave velocity profile and accurately identify the location of the high-velocity interlayer.It is verified that the ABC algorithm used in the inversion of the Rayleigh wave dispersion curve is stable and converges quickly.  相似文献   

15.
中国大陆若干地震构造带的地震准周期丛集复发行为   总被引:8,自引:3,他引:5  
以青藏高原东南缘和东北缘若干地震构造带的历史地震活动资料为基本数据,通过地震复发间隔的计算,分类和统计检验等,研究了大陆板内地震的复发行为。认为:大陆板内地震既不是简单地准周期重复发生,也不是简单地丛集复发,而可能是一种准周期的丛集复发行为,即地震丛是准周期重复发生的,而在某一地震丛内,地震又是丛集复发的。存在两类地震复发间隔,即地震丛复发间隔和地震丛内的地震复发间隔,它们分别满足对数正态分布和指数分布。在进行大陆板内活动断裂地震危险性定量计算和评估时,不能简单地套用N.B.实进模型中给出的地震复发间隔概率密度函数或累积分布函数,而应该根据当前地震的活动水平,判断当前是属于丛内的活跃期还是丛间的平静期,据此分别选用地震丛内地震复发间隔分布函数或者地震丛复发问题隔分布函数,这样将大大提高活动断裂地震危险性计算和定量评估的水平。最后,简要探讨了大陆板内地震准周期丛集复发行为的可能物理机制。  相似文献   

16.
共享单车是解决"最后一公里"出行的有效方法,然而,人们在利用其进行接驳地铁时,常出现无车可用或车辆淤积的现象.因此,探究用于接驳地铁的共享单车的源汇时空分布特征及其影响因素对实现其供需平衡有一定意义,单车运营公司可据此进行更及时、合理的调度.为了解不同区域的共享单车在接驳地铁时使用模式的差异,本文基于不同时间段的客流特...  相似文献   

17.
针对传统的最小生成树聚类算法存在使用全局不变阈值确定噪声边,聚类需要用户根据经验确定初始化聚类参数,如“边权值倍数容差”,“边长变化因子”等,聚类不能发现局部噪声的问题,本文提出了一种改进的最小生成树自适应空间点聚类算法。该算法在无需用户输入参数的前提下,克服主观因素的影响,根据最小生成树边长的数理统计特征定义裁剪因子。算法首先从宏观层面对最小生成树进行首轮删枝操作,消除全局环境下的噪声边,进而根据各子树的边长统计情况,自适应设定局部裁剪因子,进行第二轮删枝操作,消除局部环境下的噪声边。最后,采用1个模拟数据和1个实际应用验证算法的有效性,结果表明本文提出的改进算法在无需人为提供经验参数的环境下能够发现任意形状、不同密度的簇,能够准确的识别出空间点中的噪声数据,从而能够实现空间点数据背后隐藏信息的自动挖掘。  相似文献   

18.
网络环境下,如何让用户快速发现所需数据是地学数据共享平台长期面临的挑战之一。本文基于国家地球系统科学数据共享平台网站服务器日志数据获取用户搜索行为及数据集访问行为,使用聚类算法挖掘用户行为模式,并基于会话聚类 模式开发在线搜索和访问预测算法。在数据预处理阶段,对原始服务器日志数据进行清洗、用户识别、用户会话识别、搜索词提取。在模式挖掘阶段,采用DBSCAN算法对会话进行聚类。考虑到会话向量值的二元性,聚类算法中的距离采用Jaccard距离函数计算。视每个会话聚类包含的搜索词集合为一个文本,所有用户历史搜索词集合为语料库,统计各聚类中搜索词的TF-IDF值。在线搜索推荐,以搜索词检索各聚类中TF-IDF值,返回TF-IDF值最高的搜索词所属聚类,并给出该聚类的高频项目作为推荐。在线访问推荐,则以用户实时访问向量为查询向量,计算该向量与聚类中心的聚类。根据聚类排序,给出距离最近的聚类,并产生该聚类中高频项目作为推荐。实验结果表明基于TF-IDF和聚类的搜索推荐有较高的准确率和召回率,访问推荐效果基于高频统计的推荐有较大提高。研究可得出以下结论:① 地学共享网用户访问和搜索行为体现了专业性的特点,其行为较普通网站用户可预测性更好;② 对于地学数据共享用户行为预测,需明确定义用户行为,并采用合适的距离函数描述行为相似性;③ 通过搜索词TF-IDF值来预测用户数据需求的方法可行,以此产生的推荐可作为搜索结果的补充。本研究可服务于地学领域数据共享平台建设,提高共享服务质量,也可为其他领域科学数据共享提供技术方法借鉴。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号