首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
中文文本的地理空间关系标注   总被引:1,自引:0,他引:1  
为有效地解决当前相关标准和标准数据匮乏的问题,通过分析中文文本中地理空间关系描述的语言特点,提出中文文本的地理空间关系标注体系,并以GATE(General Architecture for Text Engineering)为标注工具,以《中国大百科全书中国地理》为文本数据源,采用交叉校验方式建立了地理空间关系标注语料库。实现了中文文本中地理空间关系描述的结构化表达,提供了地理空间关系信息抽取的标准化测试数据。  相似文献   

2.
《测绘文摘》2012,(3):83-90
CH20121724中文文本的地理命名实体标注=Annotation of Geographical Named Entities in Chinese Text/张雪英,朱少楠,张春菊(南京师范大学虚拟地理环境教育部重点实验室)//测绘学报.-2012,41(1).-115~120地理信息的语义解析有效地解决自然语言与地理信息系统之间的语义障碍问题。在分析中文文本和地理信息系统中地理实体描述和表达机制差异的基础上,结合地理命名实体描述的语言特点,制定中文文本的地理命名实体标注体系和标注规范,并以GATE(General Architecture for Text Engineering)作为标注平台,构建基于《中国大  相似文献   

3.
时间信息抽取和规范化表达在时空泛在信息处理、关联、聚合和内容服务中具有重要作用。设计并实现了一种基于规则的时间信息抽取和规范化表达的方法。首先,结合中文文本中时间信息描述的特点,定义了基本时间单元和派生时间单元,并由时间单元组合形成不同的时间表达式;然后,构建了时间词汇词典和时间表达式抽取的正则表达式模板;最后,设计了时间推理和计算的方法,实现了时间信息的规范化表达。基于中文文本语料进行了时间信息抽取测试。实验结果表明,本文方法具有较好的时间信息抽取效果。  相似文献   

4.
中文文本的地理命名实体标注   总被引:1,自引:0,他引:1  
通过文本中地理信息的语义解析,可以帮助人们深入理解空间认知和空间语言的表达规律,解决自然语言与地理信息系统(GIS)之间的语义障碍问题,提升GIS空间查询、空间推理、地理信息检索和地理信息服务的智能化水平。制定标注体系和建立标注语料库,能够发现自然语言中地理信息描述的语言结构,建立它们的元数据。本文在分析中文文本和GIS中地理实体描述和表达机制差异的基础上,结合地理命名实体描述的语言特点,制定了中文文本的地理命名实体标注体系和标注规范,并以GATE(General Architecture for Text Engineering)作为标注平台,构建了基于《中国大百科全书中国地理》(简称“GeoCorpus”)的大规模标注语料库,较为有效地解决了当前相关标准和规模化标准数据匮乏的问题。  相似文献   

5.
魏勇  李响  王丰 《测绘科学》2016,41(4):190-194
针对目前网页文档中文事件抽取的关键问题,该文提出利用开源的通用文本处理框架进行中文事件抽取的方法。设计了文本处理框架中文事件处理流程,开发文本处理框架插件,解决中文分词与词性标注、领域词典、中文抽取规则设计等关键技术,实现了中文事件的类型识别和元素抽取。并以4类政治事件为例,进行中文事件抽取实验。实验结果表明,基于文本处理框架的中文事件抽取具有良好的通用性及较好的抽取效果。  相似文献   

6.
栅格类图表包含了丰富的时空含义,文本信息是其知识特征的主要体现。提出一种基于文本解析的栅格类图表知识抽取方法。首先,通过CRAFT+CRNN的方法,进行图表文本信息的定位与矢量化;其次,在分析大规模样本数据的基础上,解析了常见图表数据的结构特征,并提出采用模板和机器学习2种方法进行文本块的结构类别判断;最后,利用自然语言处理方法,构建栅格类图表的知识标签体系。实验表明,该方法在栅格类图表的文本定位矢量化、文本块的结构判断等方面具有较高的准确率,能够进行栅格图表的知识标签体系构建,抽取图表中包含的知识,为海量数据的快速检索和理解提供支撑。  相似文献   

7.
在互联网迅速发展的现代化信息社会,大量地理信息都以非结构化的文本形式存在,而地名识别是挖掘这些地理信息的重要基础。目前已有的地名识别方法主要是从自然语言处理的角度来实现,并没有充分考虑到地名的构成和使用习惯等特征,造成识别率偏低或过拟合等问题。本文引入语言学相关知识,分析中文地名用字特征,在传统的地名专名+通名的结构上,更细致地划分地名的词素类型,总结归纳各词素类型的特征,将这些特征融入条件随机场的方法中,使地名识别问题转化为序列标注问题。并根据中文地名的特征,制定形式化规则,设计基于字的标注规范。在此基础上,设计中文地名特征模板,通过条件随机场模型训练和预测,识别自然语言文本中的中文地名。采用170万字的人民日报标注语料进行实验验证,结果表明本文方法对中文地名识别的召回率、准确率和F值分别达到92.69%、96.73%和94.67%,优于已有研究成果,能为地理信息科学领域的研究和应用提供更有效的地名服务。  相似文献   

8.
基于PDA的移动导航系统的动态标注   总被引:1,自引:0,他引:1  
周岩  文江 《测绘科学技术学报》2006,23(5):384-386,390
动态标注是移动导航系统传达导航信息的一个重要方面.针对PDA移动导航系统的特点,围绕如何在导航过程中正确、高效地进行地图动态标注这一问题进行了研究.对于点状地物,提出了一种基于格网整体规划,分块注记的方法;对于线状地物,提出了拆分注记文本、投影标注的方法.该方法能够有效地避免注记压盖和信息缺损等现象,同时还能保证在PDA导航过程中实时、高效地进行动态标注.保证了地图显示的可读性和美观程度,同时也保持了地图浏览的流畅性.  相似文献   

9.
孙立财  陈以松  熊杰  罗安  王勇 《测绘通报》2021,(10):108-113
随着自发地理信息和中文地址要素切分技术的发展,地址要素的质量有待评价。本文针对中文地址文本切分产生的地址要素质量难以有效评价的问题,提出了一种多源数据和网络检索支持下的地址要素可信度评估方法。首先利用中文分词工具对地址要素进行分词与词性标注,通过分析词频和词性组合模式,对地址要素的命名结构进行可信度计算。其次基于大规模的地址样本、道路数据及POI数据,挖掘多源数据对地址要素的数据支撑,计算数据支持度。然后利用搜索引擎对地址要素进行快速检索,分析搜索结果与数量,对地址要素的网络可信度进行计算。最后提出一种地址要素综合可信度计算模型,实现地址要素的综合可信度计算。试验结果表明,该模型与方法不仅能够高效快速地计算中文地址文本中地址要素的可信度,还能够有效发现地址要素中存在的偏僻、虚假等相关问题,为地址要素的自动化检测与标准化处理提供参考。  相似文献   

10.
地理实体关系抽取是地理知识获取的重要组成部分。规则制定的繁琐和难以发现的隐式关系表达,使得现有规则匹配与机器学习的方法不能有效解决地理实体关系抽取中存在的中文文本语法结构复杂且地理实体关系显式与隐式表达并存的问题。因此,根据上下文反映显式或隐式地理实体关系的特征,提出利用实体词向量和句子语义向量从文本中抽取地理实体关系的方法。实验表明,利用该方法从网络文本中获取显式和隐式表达的地理实体关系具有较好的效果,在测试集中准确率和召回率可以达到75.2%和79.2%。本研究为构建地理知识图谱、地理信息检索以及地理本体学习提供方法支持。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号