首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
空间离群是指空间邻域中属性特征值明显不同于其他对象的空间对象,空间数据离群挖掘能为人们提供很多有趣的信息,但空间数据具有复杂的拓扑关系、方位关系和度量关系等空间特征,传统的面向事务型数据库的离群挖掘算法并不适用于空间数据库。本文提出了基于MST(Minimum Spanning Tree,最小生成树)聚类的空间数据离群挖掘算法(SOM);有机结合了最小生成树理论与密度的方法,既体现了空间离群的局部特性,又体现了空间离群的孤立程度。该算法通过MST维护空间数据的基本空间结构特征,通过打断MST中最不一致的边形成MST聚类,不仅具有密度的聚类方法能够聚集非球状簇和分布不均的数据集的特点,而且聚类结果不依赖于用户参数的选择,因此,离群挖掘结果更合理。最后,通过实例数据,验证了该算法的有效性,它适用于大规模空间数据集的离群挖掘。  相似文献   

2.
针对栅格数据,传统聚类方法大都基于专题属性进行聚类,分裂了栅格对象的空间特性与专题属性,而兼顾空间与专题属性的现有空间聚类方法又存在算法复杂、参数设置多等问题,因此本文提出了一种面向栅格的空间-属性双重约束聚类算法(A Raster-oriented Clustering Method with Space-Attribute Constraints, RoCMSAC)。RoCMSAC利用栅格数据空间邻域和空间连通特性,重新定义栅格簇的相似性度量准则,通过属性均质簇生成,空间相邻栅格簇合并和空间邻近栅格簇合并3个步骤对栅格数据进行空间-属性双重约束聚类。利用太平洋海域海表温度栅格数据对算法的可行性以及有效性进行验证,并与现有算法进行对比分析。通过实例验证与对比发现:① RoCMSAC方法能够保证栅格簇空间域的邻近性和属性域的均质性;② RoCMSAC方法可发现复杂形状的栅格簇,且算法时间复杂度低,需输入参数较少。  相似文献   

3.
现有OD流向聚类多将O点和D点相分离或者将OD流向看作4维空间的数据点进行聚类处理,忽视了流向长度、方向、时间对流向聚类的影响。本文以流向作为研究对象,提出一种基于流向间相似性度的逐级合并OD流向时空联合聚类算法。首先在充分研究OD流向的空间信息和时间信息的基础上,构建合理的OD流向间时空相似性度量方法,对OD流向间的时空相似性进行量化;然后提出逐级合并OD流向聚类策略,优化类簇合并的顺序,以减少层次聚类的时间开销,实现OD流向的时空联合聚类。以成都市的滴滴出行OD数据和纽约市出租车数据为例对本文方法进行了验证,结果表明:① 本算法聚类获得的流向类簇不仅带有空间特征还具备时间特征;② 在不同参数下本方法可以得到不同时空尺度的聚类结果;③ 与现有较高水平的流向聚类算法相对比,本文方法的聚类效果更好。这体现在流向类簇内部的流向之间有着充分的相似性,以及本文方法不仅可以提取出显著的流向类簇,还可以提取出非热点区域之间的流向类簇。本算法顾及空间因素和时间因素,可以通过调整时空相似性度量方法中的时间参数和空间参数以实现不同时空尺度的流向聚类,这使得从不同时空角度研究城市居民出行模式成为可能。本文提出的OD流向时空联合聚类算法从联合时间信息和空间信息的角度获得对运动数据的新见解,有助于合理全面地研究居民的移动模式、区域之间的空间联系、已知出行结构的确定以及出行目的的探索,是后续一系列分析工作的基础。  相似文献   

4.
为了充分挖掘浮动车轨迹数据的潜在特性,本文在OPTICS空间密度聚类算法基础上,提出了一种有向密度的快速聚类方法(D-OPTICS)。该方法通过扇形空间邻域计算其有向密度信息,并基于方向信息约束其密度可连通性,通过有向可达距离曲线生成数据基本簇,最后,通过空间网格及类簇聚合等优化方法,实现其大规模浮动车轨迹数据的快速聚类处理。通过有向时空数据的聚类分析,发现浮动车轨迹的时空分布特性,以提取复杂路网的结构信息。本文以福州市大规模浮动车轨迹数据,对D-OPTICS进行了系统实验,分析表明,该算法可实现浮动车轨迹数据的快速有向密度聚类分析,有助于挖掘发现时空轨迹数据的分布规律,且基于聚类结果提取了福州市区复杂路网的有向拓扑结构图。同时,与DBSCAN及OPTICS等传统的密度聚类算法进行性能对比,实验表明,D-OPTICS算法能更好地支持大规模浮动车轨迹数据的处理要求。  相似文献   

5.
为解决传统的K-means算法需要人工确定K值和随机选取初始簇中心容易陷入局部最优的问题,提出自适应簇中心选择算法.首先将任意选取的一篇文档和与其距离最远的文档作为初始簇中心聚类得到2个大类并重新计算簇中心,然后,找出与新的簇中心距离大于设定阈值的文档并依据文档距离判断是否需要增加新的类别,迭代上述过程确定聚类簇中心及类别数.实例验证结果表明,提出的算法与改进的K-means算法相比,在聚类结果的质量和算法收敛的速度上都有明显的改善.  相似文献   

6.
空间数据获取手段呈现多样化,其数据集每天以PB级的速度在增长,如何高性能地存储、高效处理海量空间数据成为重点问题。基于空间数据库集群系统,提出了Geohash的矢量空间数据分片存储方法,通过该分片方法实现了空间数据的并行导入、分布式矢量空间数据查询。通过实验分析了分布式矢量空间数据库在真实数据集以及虚拟数据集下的读写性能。实验表明:考虑空间分布特征的分布式空间数据库集群在空间查询性能和并发访问性能方面具有更好的扩展性。  相似文献   

7.
轨道站点是城市轨道交通基本线网系统中的关键节点,科学的轨道站点分类,对了解城市功能分区及评价轨道交通基础设施建设情况具有重要意义。轨道交通站点时间序列客观记录了所观测的站点在各个时刻点的重要信息,研究其时间序列聚类,是认识和理解轨道交通站点时间序列形成本质的重要手段,也是挖掘轨道交通站点时间序列中隐含的有较高价值规律知识的重要方法。本文以北京IC卡轨道站点刷卡数据为研究对象,提出了描述轨道站点的4个数据集,即工作日进站数据集(WB)、工作日出站数据集(WA)、休息日进站数据集(RB)和休息日出站数据集(RA);并首次引入时间序列分析方法(符号集合近似(SAX)方法)对4个数据集进行聚类分析,实现了高维数据的有效降维和轨道站点之间的相似性度量。采用层次聚类方法并根据聚类有效性DB指数确定将195个站点分为8类更为合理。通过分析每类站点的日客流特征和空间位置分布情况,为轨道交通站点规划设计和管理服务提供一定的客观参考依据。  相似文献   

8.
轨迹聚类是空间数据挖掘领域的一个研究热点,对城市交通规划、路网结构提取与更新等具有重要意义。轨迹聚类包括轨迹相似性度量和聚类参数设置2个核心问题。然而,由于轨迹的形态结构特征复杂,现有轨迹相似性度量指标存在对噪声敏感或未充分考虑轨迹运动方向一致性的问题,且大多数聚类算法仍需人为设置参数,聚类挖掘结果的质量受到用户主观经验的影响。针对上述问题,本文提出了一种融合多特征的移动轨迹自适应聚类方法。首先,通过融合轨迹的空间邻近性和运动方向特征定义了一种对噪声鲁棒的轨迹相似性度量指标—DSPD距离;在此基础上,通过扩展Ward层次聚类方法提出了一种基于中心轨迹概念的空间层次聚类算法,该算法使用DSPD距离作为相似性度量指标,利用聚类特征曲线自动确定最佳聚类参数。以11组模拟轨迹数据和武汉市真实轨迹数据为例进行实验与分析,结果表明,本文方法在顾及空间邻近性的基础上,可以有效区分不同移动方向的轨迹簇,同时,利用轨迹数据特征自动确定聚类参数,降低了挖掘结果的主观性。  相似文献   

9.
针对核聚类算法与免疫网络聚类算法的不足,将免疫网络机制与核理沦相结合,通过用核距离函数代替欧拉距离函数,设置反映抗体识别抗原数量的权重和引入人工免疫网络机制等解决样本类边界模糊和类间数据密度分布不均匀问题.最后通过人工数据集和lRIS数据集上的仿真试验,验证了算法的有效性.  相似文献   

10.
空间聚类是空间数据挖掘的重要方法,而K-Medoids是一种常用的空间聚类算法。K-Medoids聚类算法存在初始点选择问题,而且计算复杂。为了提高算法的有效性和时间效率,本文结合模拟退火算法思想,改进了传统的K-Medoids算法PAM,提出一种基于GPU计算的并行模拟退火PAM算法。类比矩阵乘法运算,定义了一种新的矩阵计算方法,可以有效减少数据在GPU全局内存和共享内存之间的传输,提高了算法在GPU中的执行效率。利用模拟退火算法搜索聚类中心点,保证了聚类结果的全局最优性。基于不同的数据集,将串行和并行模拟退火PAM算法以及已有的遗传PAM算法进行比较,结果表明并行模拟退火PAM算法聚类结果正确,且时间效率高。最后,应用本文改进算法对贵州省安监系统的安全监管隐患数据进行聚类分析,发现了隐患聚集中心,相关结果对政府的决策具有一定的实际应用价值。  相似文献   

11.
针对传统GIS数据模型描述信息有限以及对象化聚类分析内容不够全面的问题,提出了基于时空对象的聚类方法的流程和应用特点。首先总结了空间聚类和时空聚类的研究现状和主要方法;根据全空间信息系统中多粒度时空对象的描述框架及时空数据的"三维"特征,认为基于时空对象的聚类方法应包含3个方面:时空对象时间序列的相似性描述、基于时空对象的聚类计算及时空对象聚类的有效性评价;最后总结了该方法的特点并展望了其应用场景。基于时空对象的聚类方法研究有助于更全面地分析时空对象空间位置、属性特征及其变化特点,为多粒度时空对象的时空分析提供一种思路。  相似文献   

12.
空间聚类与传统聚类方法的区别之一在于空间聚类是对空间实体的集群性进行分析,在聚类过程中需考虑模式在空间分布上的一种或几种结构特征,如模式间的远近关系、拓扑关系、方位关系、疏密关系等。然而,传统聚类算法大多忽略空间结构特征对聚类结果的影响。同时,传统数据挖掘过程往往是“黑箱”作业,用户不论感兴趣与否都只能被动地接受挖掘结果,而且结果往往是抽象的、不易理解的。本文对基于MST的可视化空间数据聚类挖掘算法进行了研究,利用Delaunav三角网和MST最小生成树使得地理实体的邻接度与其他属性数据一起参与了空间聚类处理,同时用J2EE技术开发可视化空间聚类挖掘工具,为此类应用系统的建立提供了一种实用的可行方案。  相似文献   

13.
时空事件聚类分析方法研究   总被引:2,自引:0,他引:2  
时空事件聚类分析是当前聚类分析研究领域最前沿的一项主要内容,在疾病预警与控制、气候变化、地震预测及犯罪行为分析等领域具有重要的应用价值。本文一方面针对时空事件聚类分析的研究现状与最新进展进行归纳总结;另一方面选取四种代表性的时空事件聚类分析方法(时空重排扫描统计,ST-DBSCAN,WKN,STSNN)从聚类质量与用户操作两个方面进行试验分析,对同一方法针对不同类型数据集,以及不同方法针对同一数据集的聚类效果进行了对比分析。最后,在实验分析的基础上对现有时空事件聚类分析的优缺点及适用性进行了归纳总结,并指出了需要进一步研究的若干问题。  相似文献   

14.
提出了一种基于自适应半径免疫算法(ARIA)的入侵检测方法.ARIA训练得到的抗体网络充分保留了原始数据的密度分布信息,具有准确的空间形态;再用最小生成树算法和zahn划分标准对抗体网络细胞聚类,聚类得到的簇被标记为正常或异常并用于网络异常检测中.对KDD CUP 99数据集的实验结果表明:相对于基于aiNet的入侵检测方法,新的算法检测率高、误报率低,能够有效识别KDD中的已知攻击和未知攻击.  相似文献   

15.
基于地下水多变量空间聚类分析的变异性评价   总被引:3,自引:0,他引:3  
在现存地下水监测网站中,观测站点分布的任意性、随意性和层次不清以及观测数据的冗余性等问题普遍存在,应用空间聚类原理,对所选研究区域廊坊地下水的监测点位及监测指标分别进行了空间聚类分析,对原始数据和经聚类处理后的数据分别进行了空间变异性评价,结果显示空间聚类分析是有效合理的.试图将空间变异性和空间聚类方法结合起来,为环境监测点的重新布置提供了理论依据,使提高监测效率与监测点的代表性、优化监测网格成为了可能;了解监测指标及监测点位在空间上的相关程度,为环境监测指标的确定提供理论依据,进而为环境管理、污染物控制以及环境资源的综合利用提供基础依据.  相似文献   

16.
针对CURE算法处理大量数据时聚类速度较慢的问题,一方面采用网格聚类方法对初始聚类对象进行网格预聚类处理,缩短初始化族聚类时间;另一方面采用MapReduce框架对算法进行并行性扩展,使其能够充分利用集群的计算和存储能力,从而加速海量数据的处理。以联合程序开发网站的数据集和MATLAB人工数据集作为测试数据集,对改进算法Grid-CURE进行实验分析。实验结果表明:方法可有效提升处理大数据的效率以及提升其抗噪声能力。  相似文献   

17.
网络环境下,如何让用户快速发现所需数据是地学数据共享平台长期面临的挑战之一。本文基于国家地球系统科学数据共享平台网站服务器日志数据获取用户搜索行为及数据集访问行为,使用聚类算法挖掘用户行为模式,并基于会话聚类 模式开发在线搜索和访问预测算法。在数据预处理阶段,对原始服务器日志数据进行清洗、用户识别、用户会话识别、搜索词提取。在模式挖掘阶段,采用DBSCAN算法对会话进行聚类。考虑到会话向量值的二元性,聚类算法中的距离采用Jaccard距离函数计算。视每个会话聚类包含的搜索词集合为一个文本,所有用户历史搜索词集合为语料库,统计各聚类中搜索词的TF-IDF值。在线搜索推荐,以搜索词检索各聚类中TF-IDF值,返回TF-IDF值最高的搜索词所属聚类,并给出该聚类的高频项目作为推荐。在线访问推荐,则以用户实时访问向量为查询向量,计算该向量与聚类中心的聚类。根据聚类排序,给出距离最近的聚类,并产生该聚类中高频项目作为推荐。实验结果表明基于TF-IDF和聚类的搜索推荐有较高的准确率和召回率,访问推荐效果基于高频统计的推荐有较大提高。研究可得出以下结论:① 地学共享网用户访问和搜索行为体现了专业性的特点,其行为较普通网站用户可预测性更好;② 对于地学数据共享用户行为预测,需明确定义用户行为,并采用合适的距离函数描述行为相似性;③ 通过搜索词TF-IDF值来预测用户数据需求的方法可行,以此产生的推荐可作为搜索结果的补充。本研究可服务于地学领域数据共享平台建设,提高共享服务质量,也可为其他领域科学数据共享提供技术方法借鉴。  相似文献   

18.
车载LiDAR点云中包含地面、建筑物、行道树、路灯等丰富地物类别,自动对这些不同类别点云进行分类,对点云中目标的识别、提取及重建都具有重要意义。本文提出了一种基于Gradient Boosting的自动分类方法。该方法首先对车载激光点云进行数据预处理,然后计算点云的协方差矩阵、密度比、高程相关特征、局部平面特征、投影特征等,再计算点云特征直方图与垂直分布直方图,采用K-means方法对这两者分别进行聚类,并将其聚类类别值也作为特征,从而构建出20维的点云特征向量,应用Gradient Boosting分类方法进行自动分类。为了验证本文方法的有效性,从某城镇场景的车载激光点云数据中选取部分代表区域共144W点作为训练数据集,然后选取另一较大区域的点云共312W点作为测试数据集。使用训练好的分类器对测试数据集进行分类,分类结果总体准确率达到了93.38%,耗时631s,说明此分类方法具有较高的分类准确率,同时也具备较高的效率。  相似文献   

19.
针对OD流向聚类中语义信息考虑不足和流向语义提取困难的问题,本文提出了一种基于隐含狄利克雷分布模型(Latent Dirichlet Allocation,LDA)和优化蚁群的OD流向语义聚类算法。算法首先以流向终点的POI类别为词汇构建流向文档,采用LDA主题模型提取流向语义,量化OD流向间的语义相似度,融合时间、空间和语义相似度构建流向时空语义相似度;接着以流向为节点,以流向时空语义相似度为边构建流向图,利用高斯函数映射以及图连通分量,剔除不相似的流向,实现数据精简;之后借鉴了密度峰值聚类算法思想,利用节点的介数中心性优化蚁群初始位置选取;最后基于多路切图准则(Multiway Normalized Cut, MNCUT)强化蚁群搜索的目的性,优化蚁群搜索的聚类效果,实现OD流向的时空语义聚类。以厦门市出租车公开数据集与厦门市高德地图POI数据为例进行分析与验证,结果表明本文基于LDA模型的语义提取方法可以有效提取流向的语义信息,构建有效的流向相似度度量;基于高斯函数和图连通分量特性的映射策略可以有效剔除了流向数据中的噪音,有效节省无向图构建的计算开支,大约节省了88.5%~88....  相似文献   

20.
基于密度的轨迹时空聚类分析   总被引:1,自引:0,他引:1  
通过轨迹聚类分析挖掘物体移动模式的空间分布和时间特征,对于认识运动的形成机制,预测运动的未来发展具有重要的意义。目前,轨迹聚类研究主要关注物体的空间位置变化,时空聚类中时间约束一般只是作为辅助信息,并不真正参与聚类。本文提出基于密度的轨迹时空聚类方法,在聚类过程中同时考虑轨迹包含的时空信息,在空间聚类的基础上提出了轨迹线段时间距离的度量方法和阈值确定原则,对时空邻域密度进行聚类分析,挖掘物体的时空移动模式。实验对南海涡旋轨迹进行时空聚类分析,得到了涡旋典型移动模式的空间分布和时间特征,验证了基于密度的轨迹时空聚类方法的有效性。加入时间约束后,移动通道主要发生缩短、分裂和消失的变化。和空间聚类相比,轨迹时空聚类可有效地划分发生在同一位置不同时间的轨迹,得到的聚类结果更加细化,移动模式更加准确,有利于物体的移动模式做更深入的分析。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号