首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 58 毫秒
1.
随着在线电子地图应用的普及,地名信息检索已成为相关研究领域的热点,并取得了丰富的研究成果。然而,这些研究主要侧重于检索效率和文本关键词匹配质量的提高,并未顾及实际应用需求和地名信息检索方法的矛盾。本文通过分析地理实体和地名的特征及关系,提出将二者相融合来研究地名信息检索的形式和方法,从数据特征和应用场景的角度出发,提出顾及地理实体的地名信息检索模式,并实现对其的结构化表达,在该检索模式中将地理实体的属性特征和空间关系作为检索特征项;以检索模式为基础提出了基于地理实体相似度计算的地名信息检索模型,并深入研究了文本型属性与数值型属性综合的属性相似度计算方法,以及定性空间过滤与定量距离计算综合的空间关系相似度计算方法;最后,通过实验验证了顾及地理实体的地名信息检索方法的可行性和检索质量。实验结果表明,该检索方法既能实现精细化和空间化的检索需求,也能保证检索结果的准确度。  相似文献   

2.
文本数据为地理知识服务提供了海量资源。面向文本数据的地理实体关系抽取是地理知识图谱构建的核心技术,直接影响地理知识推理与服务的质量。由于文本数据不可避免地含有噪声,从文本中抽取的地理实体关系需要质量评价和信息过滤。本文提出一种基于通用知识库的地理实体关系过滤方法,针对已抽取的地理实体关系从中筛选出高质量的结果:先利用“本体知识”、“事实知识”和“同义词知识”构建地理关系知识库,作为信息过滤的参照数据;再基于分布式向量表示模型度量已抽取的地理实体关系与参照数据之间的语义相似性,以提高地理知识图谱的丰度与鲜度。实验结果表明,相比业界流行的“Stanford OpenIE”工具,本文所提出的方法可将置信度区间[0, 0.2]和[0.8, 1]的MSE(Mean Square Error)从59.27%降至3.94%,AUC(Area Under the ROC Curve)从0.51提升至0.89。  相似文献   

3.
地理实体关系语料库是地理信息获取与地理知识服务的基础数据资源,其规模直接影响机器学习模型训练的效果。快速更新的网络文本不断涌现新的关系实例,要求语料库及时更新以覆盖更丰富的关系实例。手工构建和更新语料库成本高昂,亟需一种快速构建大规模地理实体关系语料库的方法。本文提出一种基于回标技术的地理实体关系语料库构建方法。首先,参考地理实体分类标准与语义关系、空间关系分类标准,针对地理实体关系的自然语言描述习惯,建立地理实体关系的标注体系;然后,结合精确匹配与模糊匹配策略,提高客体匹配的覆盖率;接着,基于优序图法建立句子打分规则,实现种子三元组到句子映射的定量评价;最后,使用中文百度百科文本验证方法的有效性。实验结果显示,本文方法平均回标成功率为67.83%,关系标注的准确率为76.36%。相比人工构建空间关系标注语料库的过程,本文提出的语料自动构建方法,标注速度快,规模大,为自动扩充标注语料库提出了可行方案。同时,该方法兼顾了地理实体间的语义关系和空间关系,且关系类型不受限,可用于开放式关系抽取任务。  相似文献   

4.
传统的地理实体空间相关度算法存在适应的实体和拓扑关系类型较少、没有考虑空间尺度依赖性而导致数据区分能力差的问题。本研究提出一种能依据指定的空间尺度(本文所指“空间尺度”是指定的地理空间范围),计算出相应的地理实体空间相关度的算法。该算法以地理学第一定律和Egenhofer关于空间相关度的论述为理论依据,分析点、线、面实体的拓扑关系和度量关系而建立不同的相关度计算公式。通过对比分析,本算法不仅能计算出不同类型和不同拓扑关系下的地理实体间相关度,而且计算结果随着空间尺度的变化而改变,与人类通常的认知相符合。最后,以地理空间数据检索为例,介绍了本算法的应用。与传统的关键词匹配检索方法相比,应用本算法能提高数据检索的F1-measure值,并且能对文档按照与检索词的相关度进行排序。本算法可应用于地理信息检索、数据发现、数据推荐和关联数据等领域。  相似文献   

5.
以提高地名地理实体数据自动化生产程度为切入点,充分利用矢量基础地理框架数据成果,提出了一种地名地理实体数据自动获取方法。首先结合矢量基础地理框架数据的数据分布特点,制定了合理的地名地理实体数据自动提取策略;在此基础上,针对所提取的数据集存在重复地名、同一地名的地理实体数据存储分散或被动分割等问题,通过设计有效的地名匹配策略,对同一地名进行去除重复处理,在此基础上将对应的地名地理实体数据进行归并处理;最后,结合实体数据的组织特点,建立了适合于点、线、面、多点、多线、多面、几何集合等不同类型的地名地理实体数据重组方法,实现对地名地理实体数据的空间重组。实验表明,采用所提出的方法,不仅能有效地获取地名地理实体数据,满足地名工程建设需求;而且改变了传统的数据生产模式,充分利用了现有数据成果,避免了地名地理实体数据的重复建设。该方法的提出为地名相关工程建设中地名地理实体数据的生产、更新提供了一种新思路和新方法。  相似文献   

6.
地理知识库是地理实体及其相互间关系的集合,对于智能搜索、问答、推荐等知识服务有重要的支撑作用.然而,已有的地理知识库由于来源、形式、构建者等的不同,在实体地名、空间位置、类别等方面存在"同义异形"和"同形异义"的语义异构现象,影响了地理知识库间的知识融合与共享.语义对齐是解决语义异构的一种有效方法,其中实体类别对齐是语...  相似文献   

7.
地理信息公共服务平台地理实体数据建模研究   总被引:8,自引:3,他引:5  
围绕国家地理信息公共服务平台在线地理信息服务的需求,在分析国内外相关成果的基础上,提出了面向实体的数据建模思路,设计了地理实体数据模型,能够方便地实现地理信息与社会、经济、自然资源等专题信息的挂接,并有效解决多比例尺实体目标的一致性维护问题.  相似文献   

8.
传统的GIS应用以空间数据库为中心进行组织,而舁构的空间数据库之间因为缺乏被计算机所理解的语义知识,很难解决日益增长的异构的GIS应用之间的互操作的需求.本体(ontology)技术被看成是解决不同应用系统之间的异构性以及互操作难题的一个重要途径.传统的地理本体需要通过领域专家人工建立.比较耗费时间.本文提出一种从已经存在的空间数据库中提取出地理本体的方法,来解决异构系统中本体获取困难的问题.  相似文献   

9.
命名实体识别(NER)是自然语言处理众多研究基础,其可以被定义为分类任务,旨在从非结构化文本中定位出命名实体,同时将命名实体分类成预定义类别。与英文相比,中文构词灵活、不具有边界性,且缺乏高质量中文NER数据集,导致中文命名实体识别难度较大。细粒度实体是粗粒度实体的细分类型,中文细粒度命名实体尤其是地理命名实体识别难度更大。中文地理命名实体识别无法同时兼顾精度和召回率,改善中文细粒度地理命名实体识别性能至关重要。因此,本文提出2种联合词汇增强模型的中文细粒度地理命名实体识别模型。首先,将词汇作为“知识”注入模型,基于词汇增强方式探究适合细粒度命名实体识别方法,并找出适合细粒度命名实体识别方法BERT-FLAT以及LEBERT;其次,为进一步提升细粒度地理命名实体识别性能,针对上述2种方法在预训练模型、对抗训练以及随机权重平均3个方面进行改进,形成联合词汇增强模型RoBERTa-wwm-FLAT以及LE-RoBERTa-wwm;最后,对联合词汇增强模型进行消融实验,探究不同改进策略对于地理命名实体识别性能影响。基于CLUENER数据集和1个微博数据集的实验表明:(1)与无词汇增强功能模型...  相似文献   

10.
地理命名实体分类体系的设计与应用分析   总被引:2,自引:0,他引:2  
自然语言是一种重要的空间数据来源,从自然语言中获取地理空间信息是地理信息科学的重要研究议题。完善的地理命名实体分类体系,有助于实现自然语言中地理空间信息的解析、存贮、组织、管理、分析及共享应用。现有的基础地理要素分类体系、地名分类体系和组织机构分类体系,分别侧重于不同的应用领域,只能表达自然语言中的部分地理命名实体,没有考虑时空关联特性。本文在参照大量相关标准的基础上,根据大量自然语言文本的标注结果,以地理命名实体所指代的空间位置、地理特征和属性作为分类标准,采用主分表和复分表相结合的方式,设计了地理命名实体分类体系(简称"GNEC")。采用定量和定性相结合的方法,分析了GNEC与GB/T18521-2001,GB/T13923-2006,CHG IS的地名分类体系、ADL的FTT词表之间的兼容性,并以中文文本的地理命名实体解析和地图服务为例,验证了GNEC的应用性能。多样性是自然语言中地理实体描述的重要特征,而分类体系主要实现地理命名实体的概念化操作。因此,在GNEC基础上构建本体,将成为解决这一问题的有效途径。  相似文献   

11.
互联网页面和社交网络文本中蕴含丰富的道路交通信息,是其他交通信息采集平台的有效补充。然而,自然语言文本形式的交通信息多以线性参考或地标方位描述交通事件空间位置,且大量存在事件元素缺失或隐含现象,对交通信息的自动化抽取有着较大影响。考虑到交通信息的自然语言表达方式虽然自由随意,但表达模式相对固定,提出一种从互联网文本中抽取道路交通信息的模式匹配方法。首先,基于道路交通事件描述的语言特征构建模式库;然后,以特征词词性序列的形式表达互联网文本和抽取模式,利用DTW距离度量序列相似度,实现抽取模式匹配;最后,在匹配抽取模式和填补规则指导下获取结构化的道路交通信息。由上海市城市交通相关门户网站和微博客平台的实验过程显示,本文所提出的模式匹配方法,抽取道路交通信息的准确率和召回率分别达到90%和80%以上,表明该方法能有效抽取互联网文本蕴含的道路交通信息,且实现过程相对简单,易于扩展,具有可用性。  相似文献   

12.
土地利用信息的多元分析提取   总被引:1,自引:0,他引:1  
由遥感(RS)、地理信息系统(GIS)和全球定位系统(GPS)获取、处理、分析空间信息,已成为研究资源环境的重要技术手段。在土地利用信息提取中,我们先后应用了传统目视解译方法、人机交互解译方法、计算机自动分类方法、多源信息复合分析等方法。本文在分析现有各种方法优缺点的基础上,提出了“综合自动分类方法”,并以北京市密云县为例,对土地利用信息进行了提取。分析表明:综合自动分类方法在分类结果的客观性、科学性、实用性等方面,具有一定的优势。  相似文献   

13.
随着气候变暖加剧,全球极端天气事件频发,重大气象灾害的发生频率与日俱增。研究气候变化与气象灾害发生频率的关系,对于气候变化背景下的防灾减灾具有重要意义。文献资料及泛在网络数据中蕴含了海量的气象灾害时空事件,为此,本文基于自然语言处理技术研发了文本气象灾害时空事件自动抽取方法。① 提出了基于专业文献的由粗到精的气象灾害标注语料训练库构建方法。首先针对不同文献资料存在的歧义和不兼容等问题,构建了面向文本事件统一的气象灾害知识体系。然后构建了基于章节结构的粗标注方法,分别针对长文本(现代文)和短文本(文言文)研发了基于Labeled LDA模型及基于TF-IDF和N-gram模型的精细标注语料筛选方法,解决了语料库的快速构建问题;② 基于BERT-CNN模型研发了融合上下文语义特征和多粒度的局部语义特征的、面向长短文本一体化处理的气象灾害时空事件自动分类方法;③ 利用该方法分别从文言文和泛在网络数据中自动抽取了灾害时空事件,其宏F1值分别达到89.09%和80.06%,主要气象灾害时空事件分布与专业统计数据相关性较高;④ 基于以上结果,重建了我国各历史时期灾害时空演变过程,发现各时期灾害数据量整体呈现出逐步上升趋势,暴雨灾害、洪涝灾害与干旱灾害是影响我国的主要灾种。本方法既可实现网络长文本事件的自动发现,也可实现文言文短文本事件的自动检测,为文本数据便捷应用于气象灾害研究和监测提供了新的技术方法。  相似文献   

14.
基于多时相影像的耕地提取和变化分析是有效管理和保护耕地资源的重要手段。然而就多时相耕地的分类提取而言,现有方法对于多时相影像中地物的时空特征表达和时空上下文关系建模存在着局限性,导致耕地的提取精度不佳;其次,对于耕地的变化分析,现有方法往往只关注基于行政单元的耕地面积统计变化,而对耕地变化在空间上的相关性分布特点考虑较少。因此,本文首先提出了一种时空上下文分类方法,综合表达和利用多时相影像中地物的光谱、纹理和空间等特征,建模时空维度上地物间在特征和语义上的上下文关系,来提高耕地覆盖分类的精度;其次,基于耕地覆盖的提取结果,在规则格网和行政区划单元上,采用GIS空间统计方法分析耕地变化的空间相关性特点;最后,以北京市顺义区为例,以2015—2019年的多时相Sentinel-2影像为数据源对本文方法进行验证。结果表明,与常见的2种多时相影像分类方法相比,本文方法在多时相耕地分类上精度最高,平均用户精度和制图精度分别达到91.21%和90.53%,所有类别的总体精度为90.79%。这表明本文方法能精确提取多时相耕地覆盖信息。通过对耕地变化的空间分布特点进行分析,发现2015—2019年顺义...  相似文献   

15.
园林植物知识图谱可为顾及区域适应性、观赏性和生态性等因子的绿化树种的选型提供知识支持.植物描述文本的实体识别及关系抽取是知识图谱构建的关键环节.针对植物领域未有公开的标注数据集,本文阐述了园林植物数据集的构建流程,定义了园林植物的概念体系结构,完成了园林植物语料库的构建.针对现有Word2vec、ELMo和BERT等语...  相似文献   

16.
白洋淀湿地是华北平原仅存的为数极少的湖泊型湿地之一,具有改善生态环境、保护生物多样性等功能。通过遥感手段进行白洋淀地区湿地变化研究,可为景观格局变化、生态环境分析及湿地保护等提供重要的信息支撑,具有非常重要的意义。本文在分析遥感大数据特点的基础上,对遥感应用中的大数据信息提取这一重要环节进行了分析,并以遥感信息计算为切入点,深入分析并总结了遥感大数据计算过程中的多种协同计算问题。结合白洋淀地区长时相遥感湿地水体提取与变化分析的应用需求,本文提出了基于协同计算方式下的白洋淀水体提取技术路线,并详细分析了水体信息计算过程中的几种重要的协同计算问题,提高了水体信息提取的精度。最后,根据白洋淀地区43期(1973-2015年)精确的水体提取信息,统计了白洋淀历史时期水体面积的变化,并指出该区域自1973年以来水体面积经历了“减少-增加-再减少-再增加”的变化过程。  相似文献   

17.
以企鹅珍珠贝(Pteria penguin)闭壳肌为样品,利用高盐+十二烷基硫酸钠(SDS)除去蛋白和多糖,用低盐+十六烷基三甲基溴化铵(CTAB)进一步纯化DNA,建立一种贝类基因组DNA简便、安全、经济的提取方法。改进后的SDS-CTAB法提取的DNA纯度较高,无蛋白质和RNA污染;酶切和AFLP实验验证表明,所提取DNA可满足酶切分析和分子标记等实验的要求。  相似文献   

18.
利用多源遥感数据提取不透水面信息是一个重要的研究方向。针对以往研究中多需要人工选取不透水面样本进行模型训练的问题,本文通过整合夜间灯光遥感与Landsat TM影像中的空间和光谱信息实现了不透水面覆盖范围(Impervious Surface Area,ISA)的自动提取。首先根据夜间灯光的分布来定位ISA聚集的城市区域的位置,分别在城市区域内部和外部自动提取可靠性高的ISA及非ISA样本,然后通过迭代分类提取城市区域的ISA,再以此为样本对城市区域外部进行分类,最后将分类结果整合完成整幅影像的ISA提取流程。应用本方法对美国雪城地区的DMSP/OLS夜间灯光影像上提取了84个城市区域,提取精度大于95%。从中分别选择高ISA密度和低ISA密度的2个城市区域作为ISA提取的测试区,本文方法在城市区域内的ISA提取总体精度与kappa系数分别为88.23%和0.63;在城市区域外部为78.6%和0.54,均优于人工样本选取方法的提取精度,表明该方法能够实现精度稳定且高效的ISA自动提取。  相似文献   

19.
基础地理信息数据在LBS应用中的信息提取与处理   总被引:1,自引:0,他引:1  
通过分析LBS数据应用范围和基础地理信息数据的内容及特点,详细介绍了在LBS应用中基础地理信息数据内容可提取性及可整合性,确定了除所需的专题地理信息数据具体内容外,在LBS应用中城市、城际数据所需基础地理信息数据的比例尺、要素内容,以及不同比例尺数据的整合处理方案、要素提取与处理的方式与方法。这样对于位置服务的数据处理可以按照比较规范的方式、方法进行,也为盘活基础地理信息数据资源提供了较好的思路,更好地实现基础地理信息数据公众化服务。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号