共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
针对互联网媒体数据中地名信息表达不规范、实体边界不清晰、地名简化表达问题,该文提出了一种混合神经网络的中文地名识别方法.通过ALBERT层学习字级别特征表达与BiLSTM层提取文本上下文语义特征,由CRF层获得全局最优标记序列,更有效地识别并提取中文地名.数据测试表明:相较于BiLSTM的地名识别模型,本文模型精确率提高12.89%,F1值提高10.83%;相较于BiLSTM-CRF的地名识别模型,本文模型精确率提高3.56%,F1值提高2.1%;相较于ALBERT-CRF的地名识别模型,本文模型精确率提高1.22%,F1值提高0.72%. 相似文献
3.
肖计划 《测绘科学技术学报》2014,(4)
建立了一个试验用地名库和地理语料库,在此基础上构建对地名用字可信度的统计分析模型。通过分析地名在中文文档中的使用习惯和规律,总结出经常与地名一起使用的且具有地名指示含义的辅助字或词,以此为基础建立地名识别辅助词词库和地名识别的规则库。对地名库和地理语料库的用字进行统计分析,通过设定地名用字可信度概率阈值和辅助词指示作用对文本中潜在地名进行初步的筛选形成候选地名;在粗筛选产生的候选地名基础上结合地名识别规则进一步确认,以提高地名识别的准确率。 相似文献
4.
在互联网迅速发展的现代化信息社会,大量地理信息都以非结构化的文本形式存在,而地名识别是挖掘这些地理信息的重要基础。目前已有的地名识别方法主要是从自然语言处理的角度来实现,并没有充分考虑到地名的构成和使用习惯等特征,造成识别率偏低或过拟合等问题。本文引入语言学相关知识,分析中文地名用字特征,在传统的地名专名+通名的结构上,更细致地划分地名的词素类型,总结归纳各词素类型的特征,将这些特征融入条件随机场的方法中,使地名识别问题转化为序列标注问题。并根据中文地名的特征,制定形式化规则,设计基于字的标注规范。在此基础上,设计中文地名特征模板,通过条件随机场模型训练和预测,识别自然语言文本中的中文地名。采用170万字的人民日报标注语料进行实验验证,结果表明本文方法对中文地名识别的召回率、准确率和F值分别达到92.69%、96.73%和94.67%,优于已有研究成果,能为地理信息科学领域的研究和应用提供更有效的地名服务。 相似文献
5.
地理编码系统中地名地址分词算法研究 总被引:4,自引:0,他引:4
对中文分词有关技术进行分析和研究,结合地理编码的特点,设计了基于双字哈希和数组的三层组合分词词典数据结构,以及逐次增字的最大正向分词算法。并通过构建和遍历地名通名词典,识别地名地址中未登录词。测试表明,本文算法速度和效果较好,解决了地理信息系统中中文分词的相关问题。 相似文献
6.
在旅游文本中,旅游地内的细粒度地名贯穿了整个旅游过程,起到了景观符号和旅游记忆载体的作用。文章阐述了细粒度旅游地地名的概念和其研究意义,选取样本旅游地对网络上旅游文本中的细粒度地名进行统计分析,总结出细粒度旅游地地名的4个特点:尺度小、定位明确、形象直观和承载记忆;以Apache服务器和MySQL为平台,构建细粒度地名数据库;结合百度地图API和PHP语言编程,实现细粒度地名的识别与可视化方法。以黄山风景区为研究样例,构建了旅游地细粒度地名可视化应用实例,提供了一种地图辅助的旅游文本阅读模式。 相似文献
7.
针对行业专题数据实时空间化及深度融合应用需求,本文提出了基于统一地名地址的地理实体自动赋码关联系统建设,构建地理实体与统一地名地址数据关联体系,设计了服务接口、计算提取、语义关联、手动识别等系统核心模块,形成了完整系统技术框架,通过地理实体编码构建形成“块数据”,实现了各行业数据逻辑汇聚,为推进行业数据跨地域、跨部门有效便捷共享提供了技术支撑。 相似文献
8.
地名地址数据库属于基础地理信息数据库,是构成数字城市地理空间框架不可或缺的重要组成部分,随着我国数字城市的逐步推进,城市建设和管理工作对基础地理信息的需求日益增加,地名地址数据库的建设和更新工作显得尤为重要。面对当前城市发展日新月异的现状,如何有效地提升数据完整性、时效性以及权威性成为数据库更新工作中必须解决的问题。本文以德州市地名地址数据库更新项目为例,指出外业调查中存在的数据问题,在对多来源地名地址数据进行广泛收集,分析这些数据的空间特征、时间特征以及利用方式的基础上,提出基于多源数据集成的数据库建设思路,利用地名地址匹配技术及人机交互的方式将官方资料与调查数据进行有机融合,并详细地从数据体系化检核、地名地址拓展、名称标准化3个方面进行阐述。项目成果表明,数据的质量明显提升。 相似文献
9.
在线地理编码服务是非专业用户最常用的非空间数据空间化的手段。然而,大量在线地理编码服务的出现增加了用户选择的困难,因此通过对主流的在线地理编码服务质量进行评价,为公众的日常应用提供选择上的指导,并有助于在线地理编码服务商发现服务存在的缺陷,进一步完善服务。基于国内主流的4种在线地理编码服务——百度、高德、搜狗和腾讯,采用与衣食住行相关的4类地址作为检验数据,分别从地址匹配率、地理编码服务位置精度和一致性三个方面,对4种服务进行质量评价,得到以下结论:造成4种服务质量差异的主要原因是其参考库的质量差异;高德地图有最高的地址匹配率和最差的位置精度;腾讯地图整体表现较为优异,具有较高的数据质量和较完备的地址数据。 相似文献
10.
中文地名识别是命名实体识别的重要研究课题之一,也是扩展地理信息系统数据来源的关键。传统的地名识别主要基于地名元素或词性特征进行识别,特征来源单一。针对上述问题,提出了一种顾及句法特征的中文地名识别方法,挖掘中文地名在自然语言中的句法信息,设计了短语结构和依存关系两类句法特征,利用条件随机场模型实现了中文地名的训练和识别。实验表明,句法特征能够有效提高中文地名识别的准确率和召回率,尤其是对于复杂地名的识别,具有良好的效果。 相似文献
11.
12.
13.
14.
中文地名识别是命名实体识别的重要研究课题之一,也是提高地理信息系统应用水平的关键。传统的地名识别主要基于词性或地名要素特征,特征类型有限。提出了一种基于复合特征的中文地名识别方法,挖掘中文地名在自然语言中的特点,设计了类型、路径、距离和数量四种句法特征,基于地名要素特征、词性特征、句法特征三种复合特征利用条件随机场模型实现了中文地名的训练和识别。通过实验对比复合特征在中文地名识别方法的效果,结果表明复合特征能够有效提高中文地名识别的准确率和召回率,尤其是对于复杂地名的识别,具有良好的效果。 相似文献
15.
《测绘科学技术学报》2013,(6)
客观世界中的各种事物之间都存在一定的相似性。相似性越高,两个事物的共有信息量则越多,表明两个事物表示同一个实体的可能性就越大。因此,相似性理论技术在地理空间数据的匹配更新中能够发挥重要作用。本文通过对地理空间数据几何相似性和语义相似性的分析研究,将其引入地名数据匹配及一致性处理中,给出了相关匹配模型和算法,提出了一种基于几何和属性相似性的地名数据匹配方法和技术,并通过相关实验验证了匹配算法的可行性。实验证明,该算法具有一定的理论意义和实用价值。 相似文献
16.
以太原市地理编码基础库建设为例,深入分析和探讨了地理编码库建设中涉及的资料搜集、外业采集、内业整理及标准化编码入库工作,并以此为基础库将城市各类专题信息进行地理编码匹配和定位生成各类专题地理数据集,经过整合建库生成地理编码扩展库,二者统称地理编码库。地理编码库为城市资源信息"落地"和各类专题信息共享交换提供了空间定位的依据。 相似文献
17.
本文介绍了如何利用微机实现中文地名索引自动编排的思路和方法,并给出了试验结果。可以预见,这一软件系统的建立将结束中文地名索引人工编排的历史,大大减轻地图制图工作者的劳动强度,提高我国地图集的制作效率。 相似文献
18.
为了提高俄语地名翻译效率,本文通过分析俄语语音特点和俄语地名音译规则,构建了俄汉音译对照表,提出了一种俄语地名专名自动快速音译方法。该方法在俄语地名音节切分的基础上,基于正向最大匹配原则,完成切分后子字符串与俄汉音译对照表词条机械匹配,进而实现俄语地名专名音译。经过地名翻译实验,验证了该方法的可行性,对于俄语地名翻译工作具有重要的现实意义。 相似文献
19.
20.
阐述了桐庐县第二次地名普查的目的、任务、实施工作流程及建库方法,地名普查主要包括地名目录整理、地名登记表填写、野外地名坐标测量及照片拍摄、内业地名数据整理建库、地名成果数据提交及输出等工作阶段,并重点强调在实施过程中的注意事项,对于开展第二次地名普查具有一定的可操作性及参考意义。 相似文献