摘 要: | 在数字城市信息资源的集成和融合中,地名地址匹配是一项非常关键的基础技术。由于中文语义和地名地址描述的复杂性,中文地址的匹配比英文要复杂得多,基于海量中文地址数据进行准确分词,实现快速高效的地址匹配是城市数据集成融合的关键问题。本文在对现有地址编码及分词技术研究的基础上,通过一种基于规则和统计的组合方法来实现中文地址分词,并且使用K叉树的结构实现对中文地址的存储,提高了中文地址匹配查询的准确度和效率。基于预处理后的10 000个深圳市地址数据,通过开发原型系统对该方法进行了比较测试,验证了该方法的有效性。
|