首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 203 毫秒
1.
网络爬虫是搜索引擎的重要组成部分。针对目前聚焦爬虫搜索策略的不足,提出了一种新的搜索策略解决方案。在搜索过程中对适应度高于或低于种群平均适应度的个体采用不同的交叉概率和变异概率来扩大爬虫的爬取范围、增加新个体,并通过改进遗传算子,提高聚焦爬虫的搜索效率。实验证明,基于自适应遗传算法的聚焦爬虫在一定程度上解决了传统遗传算法的"早熟"问题,而且能够爬取到更多主题相关的网页和相关度高的网页。  相似文献   

2.
地理要素变化检测已成为国家地理信息"十二五"规划和全国地理国情普查的重要组成部分。网页文本中蕴含海量的地理要素信息,尤其是新闻、政府、社交平台等网站的网页文本更新频繁,可为地理要素变化检测提供现势性的数据源。本文针对网页文本中地理要素变化的语言描述特点,构建了表达地理要素变化的语义知识库,设计了搜索引擎和通用主题相结合的网页爬虫,实现了相关网页文本的高效获取;采用规则模型和条件随机场模型,分别进行网页文本中地理要素变化信息抽取,包括地理要素名称、位置(地名)、时间和属性等。实验结果显示,本文设计的网页爬虫具有较高的相关网页文本获取能力,地理要素变化信息抽取的准确率能够达到70%以上,但是,语义知识库的完备程度对于信息抽取性能具有较大影响。研究成果表明,以网页文本为数据源的地理要素变化信息获取方法,能提供一种快速检测地理要素变化的新途径,与实地调绘和遥感影像检测等方法结合应用具有较好的优势互补性,可作为有力的辅助手段解决地理要素的持续更新和实时更新问题。  相似文献   

3.
传统的地理实体空间相关度算法存在适应的实体和拓扑关系类型较少、没有考虑空间尺度依赖性而导致数据区分能力差的问题。本研究提出一种能依据指定的空间尺度(本文所指“空间尺度”是指定的地理空间范围),计算出相应的地理实体空间相关度的算法。该算法以地理学第一定律和Egenhofer关于空间相关度的论述为理论依据,分析点、线、面实体的拓扑关系和度量关系而建立不同的相关度计算公式。通过对比分析,本算法不仅能计算出不同类型和不同拓扑关系下的地理实体间相关度,而且计算结果随着空间尺度的变化而改变,与人类通常的认知相符合。最后,以地理空间数据检索为例,介绍了本算法的应用。与传统的关键词匹配检索方法相比,应用本算法能提高数据检索的F1-measure值,并且能对文档按照与检索词的相关度进行排序。本算法可应用于地理信息检索、数据发现、数据推荐和关联数据等领域。  相似文献   

4.
知识图谱广泛应用于人工智能领域,基于此融合多源地理空间数据并表示地理事物的语义和时空信息,实现“数据—知识”的转换成为人们关注的热点。但现有通用知识图谱的空间知识覆盖度低且存在错误,同时基于维基百科构建的地理知识图谱存在空间关系、中文属性和坐标信息等属性缺失问题。因此本文以地理空间数据和百度百科数据的特征分析为基础,提出了以地理空间数据提取地理实体为主,百度百科补充属性信息为辅的知识图谱构建方式。① 基于GeoSparql设计模式层的地理实体、要素、几何形状和空间关系的逻辑关系;② 通过地理实体提取、实体链接和属性信息填充,在数据层实现空间知识融合;③ 结合关系型数据库和图数据库,设计空间知识存储方式;④ 在实体和关系2个方面定量分析知识图谱的构建规模。结果表明,本文构建的知识图谱中地理实体覆盖度和链接百科成功率相对较高,扩充了地理实体的概念描述信息,并将地理坐标的覆盖率提高到100%,对地理数据到地理知识的拓展具有重要意义。  相似文献   

5.
随着地理信息服务应用领域和受众群体的日益广泛,人们对地理信息服务的需求越来越多元化。一方面网络上注册和发布的地理信息服务的数量急剧增长;另一方面人们对如何高效发现兴趣服务、组合兴趣服务以满足兴趣需要却常感到困惑。当前,用户只能通过关键字搜索并结合空间过滤条件查询OGC(Open Geospatial Consortium)的目录服务,来发现所需的数据和服务。用户在受益于目录服务带来的资源搜索便捷的同时,经常受到查全率和查准率不高的困扰。面对日益庞大的服务群,如何自动、快速、准确地发现目标服务,成为影响地理信息服务进一步发展与应用的瓶颈。本文围绕地理信息服务语义标注原理方法与关键技术展开研究,通过引入信息检索技术和语义网技术、语义服务技术,从面向地理信息服务语义标注的本体建模、基于地理概念匹配的语义标注算法、融合相似性度量与包含性推理的语义匹配与服务发现,以及语义标注和服务匹配质量评价方法4个方面进行了深入研究。针对地理概念半自动语义标注新算法、地理信息服务语义发现与匹配方法、服务语义标注和服务匹配质量评价、应用试验等具体研究内容进行了实验设计,并给出了需解决的核心问题,为当前地理信息服务匹配方法提供了新思路。  相似文献   

6.
地理要素变化发现是地理信息数据库动态更新的重要组成部分。互联网在信息传播中扮演着越来越重要的角色,网页文本中蕴含着一些现势性很强的地理要素信息,可作为地理要素变化发现的数据源。本文结合网络爬虫和朴素贝叶斯分类模型,提出并实现了一种面向网页文本的地理要素变化发现方法。首先,本文在收集分析地理要素变化新闻锚文本的基础上,构建了网络地理要素变化新闻关键词库,并基于关键词库设计了适于地理要素变化发现的网络爬虫,实现了候选网页文本的主动获取;接着为了提取地理要素变化新闻,本文训练构造了适于地理要素变化发现的朴素贝叶斯分类器,对候选网页文本进行筛选。最后通过实验对比了本文方法与现有方法在准确性和全面性上的表现。  相似文献   

7.
地理信息Web服务分散于表层网络和深层网络,给服务的查找和获取带来了困难。针对这一现象,研究设计开发了一个顾及深层网络的地理信息Web服务搜索系统。该系统以基于二级匹配的深层网络地理信息Web服务采集方法和顾及用户请求范围的地理信息Web服务检索方法为理论基础,以Lucene.net、Open Layers等开源插件为开发工具,实现了一站式的表层和深层网络服务采集和检索功能,为全球地理信息协作服务平台提供了更为广泛的数据基础。  相似文献   

8.
近年来,随着Web 2.0和具有位置感知能力的移动计算设备的普及应用,带来了大量含有时空语义的地理大数据。在这个背景下,以地图厂商人工方式和半自动方式更新地名地址库为基础的传统地理编码服务,已难以满足新的应用需求。本文提出一种地理大数据驱动的自适应地理编码引擎的构建思路和方法,通过引入实时计算和流式计算平台Storm,实现对网络中的多源地理大数据的爬取与实时处理,加速地名地址库及相关资源的生成与更新过程,并给出了相适应的地理编码匹配方法。在实时流式计算框架基础上,通过JTS Topology Suite实现流式并行的空间操作,设计并实现了基于Storm的地理编码引擎原型系统,满足多源地理大数据的高效处理和地理编码要求。实验结果表明,该引擎通过实时流式处理可加速地址库的扩充与更新过程,并且利用地址库持续更新的方法,提升了地理编码的匹配率和定位准确度。  相似文献   

9.
从离线数据提供到在线地理信息服务   总被引:3,自引:1,他引:2  
当前,数字中国地理空间框架建设不断深入,网络化地理信息应用如雨后春笋,正深刻地影响着我国广大用户使用地理信息的方式与频率.为了有效的提供地理信息公共服务,应以一体化的地理信息资源为基础,以网络化地理信息服务为手段,以协同式运行维护与更新为保障,建设地理信息公共服务平台,实现从离线数据提供到在线地理信息服务的根本性转变,向政府、企业和公众提供一站式地理信息服务.本文重点分析了在线地理信息服务的基本技术需求,讨论了在线地理信息服务的主要内容、长期持续服务机制等问题.  相似文献   

10.
随着Web服务和网络技术的发展,越来越多的Web服务得以开发并发布到网络上.由于网络上存在的Web服务相互之间没有内在的必然联系,用户很难快速有效地获取和利用这些服务.本文设计了一种Web服务抓取解析器框架,包括URL抓取器、WSDL文档解析器和用于结构化存储Web服务信息的数据库等.该抓取解析器采用网络爬虫程序对互联网中的URL进行搜索,通过搜索发现分布在网络上的Web服务,并最终建立起一个关于Web服务的信息库,为共享Web服务提供条件.  相似文献   

11.
文本数据为地理知识服务提供了海量资源。面向文本数据的地理实体关系抽取是地理知识图谱构建的核心技术,直接影响地理知识推理与服务的质量。由于文本数据不可避免地含有噪声,从文本中抽取的地理实体关系需要质量评价和信息过滤。本文提出一种基于通用知识库的地理实体关系过滤方法,针对已抽取的地理实体关系从中筛选出高质量的结果:先利用“本体知识”、“事实知识”和“同义词知识”构建地理关系知识库,作为信息过滤的参照数据;再基于分布式向量表示模型度量已抽取的地理实体关系与参照数据之间的语义相似性,以提高地理知识图谱的丰度与鲜度。实验结果表明,相比业界流行的“Stanford OpenIE”工具,本文所提出的方法可将置信度区间[0, 0.2]和[0.8, 1]的MSE(Mean Square Error)从59.27%降至3.94%,AUC(Area Under the ROC Curve)从0.51提升至0.89。  相似文献   

12.
虚拟地理环境作为一种基于地理研究并提供地学分析的三维可视化的地理空间信息平台,需要解决物理存储分散、数据格式多样的空间信息资源的共享问题。本文研究了虚拟地理环境下的空间信息及其元数据的组织管理方式,定义面向对象思想定义简单的空间信息对象实体,通过对其进行迭代和组合来表达复杂空间信息对象,设计出具有元数据信息的空间信息对象XML描述方案。研究了如何构建集中式的空间信息对象管理与分布式的空间信息服务相结合的空间信息共享体系架构,通过提供对空间信息对象的浏览、分析、操作的Web服务,使得虚拟地理环境在网络中进行资源交换、信息共享、协同工作以及提供决策能得以实现。  相似文献   

13.
主要设计了应用于地理数据网络发布中的地图预览模型结构,利用SVG技术中数据量小、可缩放、可连接的特点和元数据描述作用,实现了基于SVG的地图预览模型,并提供相应地理空间数据信息查询,该模型适用于地理空间数据图形的在线浏览,以及复杂地理空间数据的在线图形预览.  相似文献   

14.
本文围绕互联网中网页文本蕴含的丰富地理空间信息,抽取网页文本中蕴含的地名实体,提出了一种地名共现网络模型,该模型综合考虑网页中地名的频次信息,表达网页文本中地名的共现及联系传递特征。在此基础上,提出一种基于链接分析的网页文本核心地名的提取方法,通过PageRank算法计算每个地名在共现网络中的链接权重,对网页文本构建的共现地名网络进行核心地名的提取,从而在庞大的网络资源中发现具有显著的焦点特征或导航枢纽特征的重要地名。最后,采用人民日报与新浪新闻体育版2份语料进行实验验证,证明了该方法的有效性。  相似文献   

15.
针对大型空间信息服务平台构建过程中的数据互联互通和信息集成问题,从集成框架体系结构、技术路线和关键技术3个方面进行研究,提出了分布式地理空间信息集成框架的5层体系结构模型和原子空间信息服务概念;通过研究分布式空间查询路由算法和虚拟四叉树模型等关键技术,探索实现分布式环境下的空间信息的互联互通.  相似文献   

16.
有效地发现和利用分布存储、运行的各类空间数据、空间决策分析模型和知识发现算法,已成为当前空间信息处理、知识发现与共享领域最具挑战性的前沿课题之一。首先,本文论述了空间信息处理、知识发现的关键问题、发展现状和趋势。然后,描述了地理知识云的概念特征,提出了地理知识云(GeoKSCloud)的具体实现。该平台构造了可伸缩的空间数据和知识服务存储、运行环境;平台从业务功能上划分为数据聚合中心、知识服务中心、地学问题求解中心、平台控制中心和知识云门户等5大核心模块。其为地学问题求解全过程提供了空间数据集成,知识服务发布、注册、搜索、发现、组合等功能,以及地学问题智能推理和结果可视化表达等工具。本文对海量空间数据云存储与管理、知识云服务管理与组合、地学问题智能求解等平台关键技术进行了论述。最后,本文以历史地震影响场分析为例,分析了平台各组件在问题求解中的交互过程,实例表明,该平台可实现多节点、跨平台、异构地理知识服务的协同式计算,有效地降低地学问题求解的成本和复杂度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号