统计决策树下的城市地址集中文分词 |
| |
作者姓名: | 应申 李威阳 贺彪 王维 万远 |
| |
作者单位: | 1.武汉大学资源与环境科学学院, 湖北 武汉, 430079 |
| |
基金项目: | 国家自然科学基金(41671381,41531177);“十三五”国家重点研发计划(2016YFF0201301,2017YFB0503500);国土资源部城市土地资源监测与仿真重点实验室开放基金(KF-2018-03-010) |
| |
摘 要: | 不同于常规的需要依赖城市地址词典或规则库的地址分词模型,提出不依赖地址词典、基于海量地址数据挖掘的分词方法。该方法结合统计规律计算地址要素在地址数据集中的分布特征,挖掘地址数据中分词的后缀点和落差点,根据后缀点和落差点的相对位置关系构建统计决策树提取地址要素;并采用深圳市建筑物地址普查数据进行验证,形成对当前地址地名词典的有益补充。
|
关 键 词: | 中文地址分词 决策树 地址要素 地址集 |
收稿时间: | 2017-03-28 |
本文献已被 CNKI 维普 等数据库收录! |
| 点击此处可从《武汉大学学报(信息科学版)》浏览原始摘要信息 |
|
点击此处可从《武汉大学学报(信息科学版)》下载免费的PDF全文 |
|