首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 875 毫秒
1.
地理实体关系语料库是地理信息获取与地理知识服务的基础数据资源,其规模直接影响机器学习模型训练的效果。快速更新的网络文本不断涌现新的关系实例,要求语料库及时更新以覆盖更丰富的关系实例。手工构建和更新语料库成本高昂,亟需一种快速构建大规模地理实体关系语料库的方法。本文提出一种基于回标技术的地理实体关系语料库构建方法。首先,参考地理实体分类标准与语义关系、空间关系分类标准,针对地理实体关系的自然语言描述习惯,建立地理实体关系的标注体系;然后,结合精确匹配与模糊匹配策略,提高客体匹配的覆盖率;接着,基于优序图法建立句子打分规则,实现种子三元组到句子映射的定量评价;最后,使用中文百度百科文本验证方法的有效性。实验结果显示,本文方法平均回标成功率为67.83%,关系标注的准确率为76.36%。相比人工构建空间关系标注语料库的过程,本文提出的语料自动构建方法,标注速度快,规模大,为自动扩充标注语料库提出了可行方案。同时,该方法兼顾了地理实体间的语义关系和空间关系,且关系类型不受限,可用于开放式关系抽取任务。  相似文献   

2.
地理知识库是地理实体及其相互间关系的集合,对于智能搜索、问答、推荐等知识服务有重要的支撑作用。然而,已有的地理知识库由于来源、形式、构建者等的不同,在实体地名、空间位置、类别等方面存在“同义异形”和“同形异义”的语义异构现象,影响了地理知识库间的知识融合与共享。语义对齐是解决语义异构的一种有效方法,其中实体类别对齐是语义对齐的基础,对于提高实体地名和空间位置的对齐精度具有重要作用。现有的实体类别对齐方法主要采用传统的字符相似度和结构相似度等来度量类别的相似度,无法捕捉实体类别深层次的语义相关性,从而影响了类别对齐的精确性。因此,本文提出了一种基于词嵌入的地理实体类别对齐方法,采用词嵌入模型从语料中学习实体类别的语义信息,并通过词向量来表达,以此弥补现有方法存在的缺失,进而提升实体对齐精度。进一步地,通过通用语料与地理信息语料的融合,本文实现了词嵌入模型所用语料在地理语义方面的增强,从而更精准地度量地理实体类别间的相关性。不同地理知识库实体类别对齐的实验表明,本文提出的方法能够有效捕捉地理实体类别的深层次语义信息,其实体类别对齐的调和平均值(Fl)可达0.9568,有效提高了实体类别的对齐精度。  相似文献   

3.
基于山东省17地市经济发展数据,构建反映城市综合实力的指标体系,利用因子分析法确定城市综合实力得分,以此为基础,建立加权Voronoi图揭示1995~2012年山东省各城市的空间影响范围及演变规律,运用Voronoi树图方法实现了城市多层级嵌套结构的表达,有效反映了城市之间的空间竞争关系,为城市合理布局规划提供了有效论证。  相似文献   

4.
提出一种基于时空关联度加权的长短期记忆网络(Long Short-Term Memory,LSTM)短时交通速度预测模型。该模型结合综合动态时间规整(Summation Dynamic Time Warping,SDTW)和拓扑邻接关系设计了一种路段速度序列之间时空关联程度的度量方法,然后基于该度量值对路段速度历史观测值进行加权,进而使用LSTM从加权观测序列中提取路段速度的时空变化特征,实现对短时交通速度的预测。实验表明,交通速度预测模型预测结果相比传统的ARIMA模型、SVR模型以及LSTM模型均有提升,实现了更高精度的速度预测。  相似文献   

5.
城市交通与土地利用相互作用、相互影响。传统的城市空间模拟研究多关注交通对土地利用变化影响,缺少土地利用对路网空间形态影响的模拟。已有研究通常使用静态路网,不能表达土地利用与交通间的动态相互作用关系。本文以城市土地利用强度与城市道路网络空间分布间的正向关系,提出了基于城市土地利用强度的城市路网增长模拟模型。以唐山市为例,对其城市环路内的道路增长进行了模拟。结果表明,该模型能以城市土地利用强度的空间分布特征快速生成路网,反映城市土地利用对道路网络扩张的影响。模拟结果与实际路网具有高度的空间分布相似性。该模型可进一步与土地利用模拟模型结合,模拟城市土地利用与交通的动态相互作用。  相似文献   

6.
园林植物知识图谱可为顾及区域适应性、观赏性和生态性等因子的绿化树种的选型提供知识支持。植物描述文本的实体识别及关系抽取是知识图谱构建的关键环节。针对植物领域未有公开的标注数据集,本文阐述了园林植物数据集的构建流程,定义了园林植物的概念体系结构,完成了园林植物语料库的构建。针对现有Word2vec、ELMo和BERT等语言模型存在无法解决多义词、融合上下文能力差、运行速度慢等缺点,提出了嵌入ALBERT(A Lite BERT)预训练语言模型的实体识别和关系抽取模型。ALBERT预训练的动态词向量能够有效地表示文本特征,将其分别输入到BiGRU-CRF命名实体识别模型和BiGRU-Attention关系抽取模型中进行训练,进一步提升实体识别和关系抽取的效果。在园林植物语料库上进行方法的有效性验证,结果表明ALBERT-BiGRU-CRF命名实体识别模型的F1值为0.9517,ALBERT-BiGRU-Attention关系抽取模型的F1值为0.9161,相较于经典的语言模型(如Word2vec、ELMo和BERT等)性能有较为显著的提升。因此基于ALBERT模型的实体与关系抽取任务能有效提高识别分类效果,可将其应用于植物描述文本的实体关系抽取任务中,为园林植物知识图谱自动构建提供方法。  相似文献   

7.
三维空间关系比二维要复杂得多,它们的缓冲分析功能也多是基于二维数据运算,基本没有实现构建管线实体的三维缓冲体,非真正意义上的三维缓冲分析。该文采用断面与体面三角剖分拟合的方法,基于OpenGL构建了管线实体的点、线、体的三维缓冲体模型,实现了管线实体的缓冲体分析,验证了缓冲体分析算法的有效性和正确性。  相似文献   

8.
湿地作为地表覆盖类型的一种,对于生物多样性与气候变化有着重要的意义,也是人类的基本生存环境之一。为更好地理解和表达湿地知识及分类间关系,本文提出了一种基于本体的湿地知识图谱构建方法。首先,利用GlobeLand30数据、生态地理分区数据,围绕湿地类型、特征分布等要素分析湿地领域知识,提取知识间的语义关系,通过本体建模形成湿地知识图谱的概念框架;其次,融合百度百科数据等进行湿地实体的提取、属性信息抽取,丰富湿地知识图谱的数据层;最后,使用图数据库Neo4j存储实体关系和实体属性,实现了湿地知识图谱构建。本文构建的知识图谱扩充了湿地实体的概念描述信息,探索了顾及时空特征的湿地知识表示方法,为地表覆盖领域的知识图谱构建提供了一个应用范例。  相似文献   

9.
社交用户的文本具有地理差异性,并且社交关系密切的用户之间居住位置更近,因而文本和社交网络均可用于推断用户常驻位置。现有基于文本和社交网络的用户常驻位置预测方法对文本的位置指示性特征挖掘不充分,而用户文本中地名等位置指示信息却提供了最有用的位置信号。因此,本文提出一种基于地理命名实体识别(GER)和图卷积神经网络(GCN)的社交用户位置预测方法。首先,通过地理命名实体识别方法对用户文本进行过滤以凸显位置指示性特征;其次,基于提及关系和关注与被关注关系抽取社交网络;再次,结合社交网络和用户文本内容,采用基于图卷积神经网络的方法进行用户常驻位置预测;最后,将GER-GCN与GCN以及最新研究成果进行比较,并探究该模型的小样本学习能力及其影响因素。基于Geotext数据集和2个微博数据集的实验表明:① GER文本过滤方法可显著提升用户位置预测精度;② 在所有实验中,GER-GCN的预测精度最高,并在基准数据集GeoText上比最新研究成果提升1%~2%;③ 在最小监督的现实场景中,本文印证了GER-GCN模型的小样本学习能力,并发现社交网络质量对其小样本学习能力起到决定性作用。实验结果验证了GER-GCN方法的先进性,且该方法符合社交媒体现实场景的应用需求。  相似文献   

10.
传统网络电子地图生成是以要素进行组织的,在表达地理实体动态变化、关联关系以及多粒度特征时存在一定的局限性。而多粒度时空对象数据模型旨在解决现实世界到对象所组成的事物空间之间的映射这一科学问题,为时空实体的可视化提供了新的思路,为展示地图要素间复杂关联、多维动态等特征提供了模型基础和数据保证。本文将多粒度时空对象数据模型引入网络电子地图生成当中,渐进得改变了以往网络电子地图依靠图层数据生成的模式,基于多粒度时空对象的概念、模型框架以及数据存储与管理方式,提出了2种网络电子地图生成方法。一种是利用多粒度时空对象数据重建图层,为现有网络制图工具提供“中间件”,使其能够调度和使用多粒度时空对象数据;另一种是将多粒度时空对象数据和地图符号进行绑定,使网络电子地图不再依赖于图层而能根据多粒度时空对象动态更新,同时便于将对象之间的关系、组成结构等非结构化属性特征进行可视化。同时,本文通过实验验证了2种方法的可行性,为多粒度时空对象在网络电子制图领域的应用进行了有效实践。  相似文献   

11.
在加快新型基础测绘体系建设、推进基础地理信息数据库向无尺度基础地理实体数据库转变的过程中,地理实体数据建设成了一个需要深入研究的问题。其中,地理实体模型构建及存储管理是一个重点内容。为了实现这一目标,立足省级新型基础测绘建设,通过试点探索,提出基于图元的地理实体数据模型,依托模型建立研究区地理实体数据,并利用关系图谱实现地理实体数据的表达与可视化。研究成果已在江苏省新型基础测绘体系数据库建设中得到应用。  相似文献   

12.
网络文本蕴含地理实体关系抽取技术,需要高时效、强鲁棒的关键词提取方法。与监督学习方法相比,无监督学习方法能捕获文本的动态变化特征并发现新增的关系类型,因此备受关注。其中,基于频率的关键词提取方法获得广泛研究,然而,网络文本蕴含的地理实体关系分布稀疏,基于频率的方法难以直接应用于地理实体关系的关键词提取。为解决该问题,本文基于公开访问的网络资源,提出一种语境增强的关键词提取方法。首先,基于在线百科和开放的同义词词典,通过语境合并和语义融合创建增强的语境,以降低语境中词语的稀疏性。接着,Domain Frequency和Entropy频率统计方法从增强语境中自动构建一个大规模语料。然后,基于该语料选择词法特征并统计其权值,用于扩大语境中词语间的差异。最后,使用选择的词法特征度量增强语境中词语的重要性,将权值最大的词语作为描述地理实体关系的关键词,并基于大规模真实网络文本开展实验。实验结果表明:对于地理实体关系的关键词识别,本文方法的平均精度为85.5%,比Domain Frequency和Entropy方法分别提高41%和36%;对于新增关键词识别,本文方法的精度达到60.3%。语境增强的关键词提取方法能有效地处理地理实体关系分布的稀疏性,可服务于网络文本蕴含地理实体关系的抽取。  相似文献   

13.
针对地质资料信息服务过程中,存在信息孤岛和数据共享不够等问题,提出了面向开放关联数据LOD的地质资料机构知识库语义扩展方法,并对方法的框架和关键技术进行了研究。首先,基于DSpace构建地质资料机构知识库,自动实现资源描述框架RDF的存储与转化,与LOD形成统一的元数据描述标准。其次,构建地质资料数据的关联模型,明确数据间的语义关系。最后,采用D2RQ平台实现地质资料机构知识库与LOD数据集的语义关联。该方法将进一步加快语义化地质资料信息服务的步伐。  相似文献   

14.
动态分段技术是交通地理信息系统(GIS-T)中一项重要的线性要素动态显示与分析技术,该文提出了一种时空动态分段模型,使动态分段系统的组成成分融入时态因素,并将属性的时态信息作为属性信息表的字段存储,通过时态地理信息系统技术完成物理段的时态变化。利用统一建模语言(UML)的类图设计方式开发了物理模型,描述了时空动态分段模型中对象之间的关系,并定义了必要的属性和操作;同时基于线性参照系统(LRS)表达空间实体的方法,概括了模型中所涉及到的主要拓扑关系。实验表明,时空动态分段模型弥补其他模型将时空参考分为时间参考和空间参考所产生的不足,而且更明确地将多重属性和物理实体有机结合起来。  相似文献   

15.
根据全空间信息系统中地理实体基本特征以及存储管理的需求,本文提出了一种面向地理实体及其关联关系动态变化表达的时空数据模型。① 在地理实体方面,将其抽象为由有序、无缝对象片段组成的时空对象,并建立了对象片段表达的三元组模型,即空间位置、几何形态和属性特征;② 在关联关系方面,采用基于RDF模型来对空间关系和属性关系进行形式化描述;③ 在动态变化方面,将地理实体的变化分为空间位置的变化、几何形态的变化和属性特征的变化,关联关系的变化分为空间关系和属性关系的变化,并分别采用快照/增量、方程/模型2种方式来统一表达它们的离散和连续变化。该模型可显式地描述动态的时空对象及其关联关系在时空过程中的变化,有助于探讨和挖掘地理现象的基本变化规律和内在关联性。  相似文献   

16.
面向新时代国土空间规划的要求,城镇用地扩展与农业空间、生态空间的关系面临新的挑战,而城镇用地扩展模拟可为制定国土空间规划政策提供科学支持。城镇建设用地斑块的空间特征,是城镇用地扩展的重要影响因素,且与元胞层面处于不同层级,因此分层级耦合元胞与斑块的空间特征,能够提升模拟的精度和科学性。以上海大都市圈为例,本文构建一种兼顾城镇建设用地空间网络结构和变量层级关系的CA模型(Spatial Network-Hierarchical Generalized Linear-Cellular Automata, SN-HGLM-CA)。首先通过城镇建设用地空间网络模型提取斑块的空间特征,再利用分层广义线性模型考虑变量间的层级关系,得到城镇用地扩展的适宜性概率,继而嵌入元胞自动机模型中进行城镇用地扩展的模拟。本研究得到以下研究结论:(1)基于城镇建设用地斑块构建的空间网络模型,对于识别城镇建设用地的空间重要性特征和挖掘其扩展规律具有重要意义;(2) HGLM模型能够揭示城镇建设用地扩展中元胞和斑块的层级性关系,有助于提高CA模型的科学性和模拟精度;(3)基于SN-HGLM-CA模型的城镇用地扩展模拟...  相似文献   

17.
针对OD流向聚类中语义信息考虑不足和流向语义提取困难的问题,本文提出了一种基于隐含狄利克雷分布模型(Latent Dirichlet Allocation,LDA)和优化蚁群的OD流向语义聚类算法。算法首先以流向终点的POI类别为词汇构建流向文档,采用LDA主题模型提取流向语义,量化OD流向间的语义相似度,融合时间、空间和语义相似度构建流向时空语义相似度;接着以流向为节点,以流向时空语义相似度为边构建流向图,利用高斯函数映射以及图连通分量,剔除不相似的流向,实现数据精简;之后借鉴了密度峰值聚类算法思想,利用节点的介数中心性优化蚁群初始位置选取;最后基于多路切图准则(Multiway Normalized Cut, MNCUT)强化蚁群搜索的目的性,优化蚁群搜索的聚类效果,实现OD流向的时空语义聚类。以厦门市出租车公开数据集与厦门市高德地图POI数据为例进行分析与验证,结果表明本文基于LDA模型的语义提取方法可以有效提取流向的语义信息,构建有效的流向相似度度量;基于高斯函数和图连通分量特性的映射策略可以有效剔除了流向数据中的噪音,有效节省无向图构建的计算开支,大约节省了88.5%~88.8%的运行时间;基于介数中心性和多路切图准则优化的蚁群搜索聚类算法,可以有效进行流向语义聚类。相比已有方法本文方法能够更好地衡量流向间的语义相似程度,可实现按主题进行聚类划分,划分更加精细,更方便有效地进行流向语义的相关分析。  相似文献   

18.
SIG中空间信息可视化与互操作实现研究   总被引:1,自引:0,他引:1  
在介绍SIG示范验证平台总体架构的基础上,提出了WMS服务实体在该架构下的有效布局、层次结构、服务模型、工作流程等;并介绍了利用开源软件MapServer构建这类WMS服务实体的关键技术.通过WMS服务实体在SIG示范验证平台中的应用实例与效率分析,表明该实现途径与技术是切实可行的.  相似文献   

19.
文本数据为地理知识服务提供了海量资源。面向文本数据的地理实体关系抽取是地理知识图谱构建的核心技术,直接影响地理知识推理与服务的质量。由于文本数据不可避免地含有噪声,从文本中抽取的地理实体关系需要质量评价和信息过滤。本文提出一种基于通用知识库的地理实体关系过滤方法,针对已抽取的地理实体关系从中筛选出高质量的结果:先利用“本体知识”、“事实知识”和“同义词知识”构建地理关系知识库,作为信息过滤的参照数据;再基于分布式向量表示模型度量已抽取的地理实体关系与参照数据之间的语义相似性,以提高地理知识图谱的丰度与鲜度。实验结果表明,相比业界流行的“Stanford OpenIE”工具,本文所提出的方法可将置信度区间[0, 0.2]和[0.8, 1]的MSE(Mean Square Error)从59.27%降至3.94%,AUC(Area Under the ROC Curve)从0.51提升至0.89。  相似文献   

20.
科学合作是促进知识传播和共享的重要途径,已有研究表明,地理因素是影响科学合作的主要因素之一。然而,目前针对该问题的研究大多只是从科学计量学的角度,对科学合作强度与地理距离的函数关系进行描述,无法揭示科学合作在空间上的分布特征和内部差异性。因此,本文从地理学的角度,以中国雾霾研究的合作网络为例,通过对文献题录中的位置信息进行解析,将虚拟的科学合作网络映射到地理合作网络。在此基础上,提出了一种考虑地理距离的科学合作网络社区发现方法,挖掘科学合作网络中蕴含的空间聚类特征,从而对科学合作的地域倾向性进行反映。通过比较发现,基于合作频次与地理距离的社区发现算法,能够使社区内部的平均地理距离最小而合作强度最大,既反映了科学合作在地理上的近似性,又体现了科学合作强度特征。该方法能够直观地揭示科学合作中隐含的空间分布模式和联系,对其他复杂网络的地理社区划分也有一定的借鉴意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号