首页
|
本学科首页
官方微博
|
高级检索
全部专业
测绘学
大气科学(气象学)
地球物理学
地质学
海洋学
天文学
学报及综合类
自然地理学
按
中文标题
英文标题
中文关键词
英文关键词
中文摘要
英文摘要
作者中文名
作者英文名
单位中文名
单位英文名
基金中文名
基金英文名
杂志中文名
杂志英文名
栏目英文名
栏目英文名
DOI
责任编辑
分类号
杂志ISSN号
检索
联合词汇增强的中文细粒度地理命名实体识别模型研究
引用本文:
李发东,王海起,孔浩然,刘峰,王志海,王琼,徐建波,单宇飞,周啸宇,闫峰.联合词汇增强的中文细粒度地理命名实体识别模型研究[J].地球信息科学,2023(6):1106-1120.
作者姓名:
李发东
王海起
孔浩然
刘峰
王志海
王琼
徐建波
单宇飞
周啸宇
闫峰
作者单位:
中国石油大学(华东)海洋与空间信息学院
基金项目:
山东省自然科学基金项目(ZR2021MD068)~~;
摘 要:
命名实体识别(NER)是自然语言处理众多研究基础,其可以被定义为分类任务,旨在从非结构化文本中定位出命名实体,同时将命名实体分类成预定义类别。与英文相比,中文构词灵活、不具有边界性,且缺乏高质量中文NER数据集,导致中文命名实体识别难度较大。细粒度实体是粗粒度实体的细分类型,中文细粒度命名实体尤其是地理命名实体识别难度更大。中文地理命名实体识别无法同时兼顾精度和召回率,改善中文细粒度地理命名实体识别性能至关重要。因此,本文提出2种联合词汇增强模型的中文细粒度地理命名实体识别模型。首先,将词汇作为“知识”注入模型,基于词汇增强方式探究适合细粒度命名实体识别方法,并找出适合细粒度命名实体识别方法BERT-FLAT以及LEBERT;其次,为进一步提升细粒度地理命名实体识别性能,针对上述2种方法在预训练模型、对抗训练以及随机权重平均3个方面进行改进,形成联合词汇增强模型RoBERTa-wwm-FLAT以及LE-RoBERTa-wwm;最后,对联合词汇增强模型进行消融实验,探究不同改进策略对于地理命名实体识别性能影响。基于CLUENER数据集和1个微博数据集的实验表明:(1)与无词汇增强功能模型...
关 键 词:
命名实体识别
自然语言处理
中文细粒度实体
地理命名实体识别
词汇增强
预训练模型
对抗训练
随机权重平均
点击此处可从《地球信息科学》浏览原始摘要信息
点击此处可从《地球信息科学》下载
免费
的PDF全文
设为首页
|
免责声明
|
关于勤云
|
加入收藏
Copyright
©
北京勤云科技发展有限公司
京ICP备09084417号