首页 | 本学科首页   官方微博 | 高级检索  
     检索      

网络爬虫的专题机构数据空间信息采集方法
引用本文:杨宇,孙亚琴,闫志刚.网络爬虫的专题机构数据空间信息采集方法[J].测绘科学,2019,44(7):122-127,140.
作者姓名:杨宇  孙亚琴  闫志刚
作者单位:中国矿业大学环境与测绘学院,江苏徐州,221116;中国矿业大学环境与测绘学院,江苏徐州,221116;中国矿业大学环境与测绘学院,江苏徐州,221116
基金项目:国家自然科学基金;中央高校基本科研业务费专项
摘    要:针对海量专题机构数据空间信息和属性信息缺失的问题,该文使用专题机构信息网站作为信息源,以深度优先策略网络爬虫作为信息获取方法,提出了一种基于网络爬虫框架的专题机构数据空间信息采集方法。在网络爬虫方法关键功能模块中,设计了一种基于词元的字符串相似度矩阵算法来提高机构检索列表匹配准确度,并提出了一种基于决策树模式的行政区划信息识别和抽取算法用以实现地址字符串中行政区划的准确识别和提取。通过具体实现和实验测试,证明该方法能有效地实现专题机构数据空间信息和属性信息的采集,并具有较高的时间效率和准确率,可作为机构数据空间信息采集的一种有效方法。

关 键 词:泛在网络  空间信息采集  网络爬虫  矩阵算法  决策树

Research on spatial information acquisition method of agency data based on Web crawler
YANG Yu,SUN Yaqin,YAN Zhigang.Research on spatial information acquisition method of agency data based on Web crawler[J].Science of Surveying and Mapping,2019,44(7):122-127,140.
Authors:YANG Yu  SUN Yaqin  YAN Zhigang
Institution:(School of Environment Science and Spatial Informatics,China University of Mining and Technology,Xuzhou,Jiangsu 221116,China)
Abstract:YANG Yu;SUN Yaqin;YAN Zhigang(School of Environment Science and Spatial Informatics,China University of Mining and Technology,Xuzhou,Jiangsu 221116,China)
Keywords:ubiquitous network  spatial information acquisition  Web Crawler  matrix algorithm  decision tree
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号