首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 62 毫秒
1.
地理编码系统中地名地址分词算法研究   总被引:4,自引:0,他引:4  
张林曼  吴升 《测绘科学》2010,35(2):46-48
对中文分词有关技术进行分析和研究,结合地理编码的特点,设计了基于双字哈希和数组的三层组合分词词典数据结构,以及逐次增字的最大正向分词算法。并通过构建和遍历地名通名词典,识别地名地址中未登录词。测试表明,本文算法速度和效果较好,解决了地理信息系统中中文分词的相关问题。  相似文献   

2.
地址要素识别机制的地名地址分词算法   总被引:1,自引:1,他引:1  
本文在介绍分析常用中文分词方法及其特点的基础上,针对地名地址字符串,提出基于地址要素识别机制的地名地址分词算法。该算法基于整词二分分词词典,采用FMM算法,增加了基于地址要素的识别机制,从而有效地实现了对地名地址串的拆分。识别机制通过判断地址要素的完整性完成对未登录地址名称的处理,解决了分词算法对未登录地址名称的识别问题。测试证明新算法能够有效实现对地名地址串的拆分,从很大程度上解决对未登录地址名称的识别问题。  相似文献   

3.
针对中文地址非结构化、不规范的特点,在构建中文地址模版和中文地址词典等重要知识库基础上,基于中文地址模版引入了中文地址分词的预处理;并在中文地址词典的支撑下采用逆向最大匹配算法实现了中文地址分词。新中文地址分词算法不仅在正确率和召回率等指标上优于传统算法,更提出了一种用于解决未登录地址名词识别问题的新方法。  相似文献   

4.
介绍地理信息系统中的一项重要功能-地址定位技术,并对该技术在我国的应用前景进行了论述,同时针对我国的实际情况,分析了目前应用该技术存在的一些问题,并提出了相关的建议。  相似文献   

5.
张琛  陈张建  刘江涛  任福  张红伟 《测绘科学》2021,46(10):185-193
为提高地理编码系统对输入地址的分词适应性及匹配准确度,该文基于Lucene索引及查询机制提出了 一种可适应于中文非标准地址的地址匹配改进方法.首先依据中文地址模式创建地址元素分层索引库,然后将拼音三叉树、同义词配置、未登录词配置等功能集成于IK分词器,获得初次匹配结果集合后计算编辑距离并排序选取返回值.匹配系统以浙江省台州市公安地址及行政法人地址为数据基础构建分词库和索引库,结果表明,该方法可实现输入地址的自适应分词,对中文非标准地址的匹配效果良好,能够服务于测绘和地理信息的相关应用场景.  相似文献   

6.
DotLucene是一个开源的、可扩展的、高性能的全文检索工具包,它可以方便的嵌入到各种应用系统中实现全文索引和查询功能.在研究DotLucene的体系结构和主要功能模块的基础上,针对传统GIS查询功能中全文检索能力较弱的现状,将全文检索引擎DotLucene引入到GIS中,实现根据GIS文档资料的内容而不是其外部特征...  相似文献   

7.
不同于常规的需要依赖城市地址词典或规则库的地址分词模型,提出不依赖地址词典、基于海量地址数据挖掘的分词方法。该方法结合统计规律计算地址要素在地址数据集中的分布特征,挖掘地址数据中分词的后缀点和落差点,根据后缀点和落差点的相对位置关系构建统计决策树提取地址要素;并采用深圳市建筑物地址普查数据进行验证,形成对当前地址地名词典的有益补充。  相似文献   

8.
如何能够在国土资源部门户网站矿业权市场网中快速、准确的找到所需要的数据信息,研究认为,可以基于全文检索数据库和动态网页生成技术进行信息检索功能模块开发。为了突破传统网页信息检索的种种局限,真正、全面的实现结构化和非结构化信息的检索,在信息全文检索设计中采用这样的技术路线,通过数据同步网关工具,把矿业权市场网信息数据同步到的全文检索数据库中,通过管理控制台软件读取数据,面向不同结构文档的检索要求定制相应的JSP模板从而完成内容的格式化页面显示,便可以实现按标题、时间、许可证号、矿种、文号和矿山名称等条件对矿业权交易信息进行检索查询,最终以矿业权市场网的网页为表现载体。实践证明,基于这种思路与方式构建的信息检索功能模块具有一定的实用价值,并为后续个性化信息服务提供有效的检索支撑。  相似文献   

9.
地址分词是实现地理编码的重要基础.本文基于条件随机场模型对中文地址分词进行研究,实现了中文地址的快速、准确分词.文中先综合分析各种中文地址分词方法的优势和劣势,设计出一套优化的地址分词标注体系,然后制定地址分词的尾词特征和特征模板,采用半监督学习与人工标注相结合的方式获取高质量的标注训练语料,供CRF模型训练;最终根据已标注语料训练条件随机场模型,实现对中文地址信息的自动分词和识别.  相似文献   

10.
GIS中文查询系统的词典设计与分词研究   总被引:3,自引:0,他引:3  
在分析系统应用领域的基础上设计了系统词典,提出了基于扩展ER空间数据库环境的全匹配分词算法,分析了算法的复杂度,解决了切分歧义和未登录词的问题,并通过一个实验原型对设计进行了验证,为GIS中文查询语句的正确理解提供了有效的语义信息。  相似文献   

11.
针对GIS地名搜索系统的关键技术,阐述了用于分词搜索的词典设计,设计了中文分词算法;选用全文检索引擎Lucene实现了地址匹配组件;设计了地名搜索系统架构并实现了地名搜索功能。  相似文献   

12.
GIS数据库中地址自动匹配方法研究   总被引:2,自引:0,他引:2  
在GIS数据库设计与建设中,地址自动匹配一直是一个倍受重视的理论与实践问题.截至目前,还没有非常有效的快速地址自动匹配方法,也没有非常成熟的相关软件可以直接利用.本文针对企业GIS数据库建设,提出了一套地址匹配方法:采用Visual Basic 6.0编程,将20 000多家企业的地址进行预处理、分解和归类,然后将得到的标准化地址导入到数据库,再利用空间插值方法将这些地址数据匹配到地图上.而且,笔者还以上海浦东新区企业GIS数据库建设为例,采用上述方法进行了试验研究,取得了满意的效果.  相似文献   

13.
针对传统全文搜索引擎Lucene无法满足海量地名地址数据高速分布式检索的问题,本文通过对分布式搜索引擎ElasticSearch的集群架构、索引分片与复制集、地理要素索引存储、数据检索及位置聚合等关键点进行详细研究,结合地名地址库数据结构的特点,提出了一种面向Web电子地图开发的分布式地名地址搜索服务构架,实现了地名地址模糊搜索、专题搜索、视野内搜索、周边搜索等功能。该架构具备可伸缩性、容错性、支持大规模并发访问的特点。  相似文献   

14.
地名分词搜索的词典设计与匹配方法研究   总被引:1,自引:0,他引:1  
阐述了专门用于分词搜索的关键词词典设计,提出了采用逆向最大匹配和权重匹配相结合的方法,实现了更加准确、高效的地名搜索。  相似文献   

15.
Global GIS及其关键技术   总被引:4,自引:0,他引:4  
Global GIS(全球性地理信息系统, GGIS)的研究近年来变得日益重要,基于对目前研究现状所做的分析和评述,指出了构建基于统一三维地心参考系并以地球椭球体模型为依托的多层次格网框架是GGIS研究的基础,并且在全球性多源多尺度空间数据集成、三维椭球面空间数据表达以及多层次格网编码与索引技术等方面均存在着一系列理论与技术问题有待解决,分析了这些问题的难点所在,并给出了一些参考性的解决方案.  相似文献   

16.
地理信息系统中动态分段技术的研究   总被引:1,自引:0,他引:1  
动态分段是一种新的线性特征的动态分析、显示和绘图技术。本文结合GIS在公路信息管理领域的应用,论述了动态分段技术产生的根源,动态分段数据库的特点及实现动态分段的算法。以空间数据库和属性数据库的双向查询为例,说明了动态分段技术的具体应用,它的有关算法及命令格式。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号