首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
地址数据的规范化表达是地理编码的前提。首先,通过设计地址要素层次模型,建立地址要素词典库,并存储地址要素名称、地址通名、地址专名、地址要素类型编码等,用于地址要素拆分;其次,采用首次取两个字、再逐次加一字的地址通名切分方法对原始地址数据进行地址要素拆分和规范化,弥补了常用的最大正向分词算法中M系数难以确定的不足,避免了没有意义的循环,提高了查找效率和准确率。最后,基于地址要素组合规则对拆分后的地址要素进行重构获得规范化的地址。  相似文献   

2.
地理编码系统中地名地址分词算法研究   总被引:4,自引:0,他引:4  
张林曼  吴升 《测绘科学》2010,35(2):46-48
对中文分词有关技术进行分析和研究,结合地理编码的特点,设计了基于双字哈希和数组的三层组合分词词典数据结构,以及逐次增字的最大正向分词算法。并通过构建和遍历地名通名词典,识别地名地址中未登录词。测试表明,本文算法速度和效果较好,解决了地理信息系统中中文分词的相关问题。  相似文献   

3.
不同于常规的需要依赖城市地址词典或规则库的地址分词模型,提出不依赖地址词典、基于海量地址数据挖掘的分词方法。该方法结合统计规律计算地址要素在地址数据集中的分布特征,挖掘地址数据中分词的后缀点和落差点,根据后缀点和落差点的相对位置关系构建统计决策树提取地址要素;并采用深圳市建筑物地址普查数据进行验证,形成对当前地址地名词典的有益补充。  相似文献   

4.
地址要素识别机制的地名地址分词算法   总被引:2,自引:1,他引:1  
本文在介绍分析常用中文分词方法及其特点的基础上,针对地名地址字符串,提出基于地址要素识别机制的地名地址分词算法。该算法基于整词二分分词词典,采用FMM算法,增加了基于地址要素的识别机制,从而有效地实现了对地名地址串的拆分。识别机制通过判断地址要素的完整性完成对未登录地址名称的处理,解决了分词算法对未登录地址名称的识别问题。测试证明新算法能够有效实现对地名地址串的拆分,从很大程度上解决对未登录地址名称的识别问题。  相似文献   

5.
吕欢欢  宋伟东 《测绘科学》2015,40(3):96-100
针对数字城市地理空间框架建设中地址匹配的具体需求和现存中文地址匹配方法中存在的问题,该文提出一种多元地址要素组合的地址匹配方法:分析地名地址数据的分词方法和作为参考数据的地址编码库的物理结构;给出组合策略和匹配流程,针对地址要素的不同重要程度分配权重,计算不同组合中各地址要素相似性匹配指数,并采用加权求和方式获得匹配总分;并以城市地址编码数据库为参考数据,工商领域监管对象地名地址数据为输入地址对提出方法进行实验和验证,与其他匹配算法对比的结果表明,提出算法有效、正确、灵活。  相似文献   

6.
张琛  陈张建  刘江涛  任福  张红伟 《测绘科学》2021,46(10):185-193
为提高地理编码系统对输入地址的分词适应性及匹配准确度,该文基于Lucene索引及查询机制提出了 一种可适应于中文非标准地址的地址匹配改进方法.首先依据中文地址模式创建地址元素分层索引库,然后将拼音三叉树、同义词配置、未登录词配置等功能集成于IK分词器,获得初次匹配结果集合后计算编辑距离并排序选取返回值.匹配系统以浙江省台州市公安地址及行政法人地址为数据基础构建分词库和索引库,结果表明,该方法可实现输入地址的自适应分词,对中文非标准地址的匹配效果良好,能够服务于测绘和地理信息的相关应用场景.  相似文献   

7.
针对现有中文地名匹配算法匹配核心地址要素不明确,准确性不足的问题,本文提出了一种基于规则与词典相结合的地址匹配算法。该算法通过地址要素特征词来对地址要素进行初识别,利用地址要素词典对可能的地址要素进行匹配,通过遍历词典得到所有可能的地址要素,对各类地址要素进行组合得到最有效地址要素,利用最有效地址要素进行地址匹配与定位。利用该算法对高德地图随机抽取的1800条POI数据进行了匹配验证,实验结果表明该算法在匹配效率和准确性两方面均有较大提升。  相似文献   

8.
随着我国城市化和信息化的发展,地址编码已经成为建设数字城市的基础工作。地址匹配是地址编码的关键环节,但面临着中文地址分词困难的问题。本文基于Lucene检索引擎,结合三叉树分词词典机制和基于规则的地址分词技术,设计了具有地址分词和地址匹配功能的地址匹配引擎,并构建了Rest风格的在线地址匹配服务,取得了良好的应用效果。  相似文献   

9.
地址分词是实现地理编码的重要基础.本文基于条件随机场模型对中文地址分词进行研究,实现了中文地址的快速、准确分词.文中先综合分析各种中文地址分词方法的优势和劣势,设计出一套优化的地址分词标注体系,然后制定地址分词的尾词特征和特征模板,采用半监督学习与人工标注相结合的方式获取高质量的标注训练语料,供CRF模型训练;最终根据已标注语料训练条件随机场模型,实现对中文地址信息的自动分词和识别.  相似文献   

10.
地理编码技术探讨   总被引:1,自引:0,他引:1  
为用文字描述的地名地址增加空间位置信息,实现地名地址信息的空间定位、查询和基于位置服务是地理信息社会化应用和服务的一个关键问题,而地理编码技术正是解决这一问题的有效途径。通过对现有各类地理编码系统的研究,分析和探讨地理编码的技术、特点和应用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号