首页 | 本学科首页   官方微博 | 高级检索  
     检索      

联合词汇增强的中文细粒度地理命名实体识别模型研究
引用本文:李发东,王海起,孔浩然,刘峰,王志海,王琼,徐建波,单宇飞,周啸宇,闫峰.联合词汇增强的中文细粒度地理命名实体识别模型研究[J].地球信息科学,2023(6):1106-1120.
作者姓名:李发东  王海起  孔浩然  刘峰  王志海  王琼  徐建波  单宇飞  周啸宇  闫峰
作者单位:中国石油大学(华东)海洋与空间信息学院
基金项目:山东省自然科学基金项目(ZR2021MD068)~~;
摘    要:命名实体识别(NER)是自然语言处理众多研究基础,其可以被定义为分类任务,旨在从非结构化文本中定位出命名实体,同时将命名实体分类成预定义类别。与英文相比,中文构词灵活、不具有边界性,且缺乏高质量中文NER数据集,导致中文命名实体识别难度较大。细粒度实体是粗粒度实体的细分类型,中文细粒度命名实体尤其是地理命名实体识别难度更大。中文地理命名实体识别无法同时兼顾精度和召回率,改善中文细粒度地理命名实体识别性能至关重要。因此,本文提出2种联合词汇增强模型的中文细粒度地理命名实体识别模型。首先,将词汇作为“知识”注入模型,基于词汇增强方式探究适合细粒度命名实体识别方法,并找出适合细粒度命名实体识别方法BERT-FLAT以及LEBERT;其次,为进一步提升细粒度地理命名实体识别性能,针对上述2种方法在预训练模型、对抗训练以及随机权重平均3个方面进行改进,形成联合词汇增强模型RoBERTa-wwm-FLAT以及LE-RoBERTa-wwm;最后,对联合词汇增强模型进行消融实验,探究不同改进策略对于地理命名实体识别性能影响。基于CLUENER数据集和1个微博数据集的实验表明:(1)与无词汇增强功能模型...

关 键 词:命名实体识别  自然语言处理  中文细粒度实体  地理命名实体识别  词汇增强  预训练模型  对抗训练  随机权重平均
点击此处可从《地球信息科学》浏览原始摘要信息
点击此处可从《地球信息科学》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号