首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于ALBERT模型的园林植物知识实体与关系抽取方法
引用本文:陈晓玲,唐丽玉,胡颖,江锋,彭巍,冯先超.基于ALBERT模型的园林植物知识实体与关系抽取方法[J].地球信息科学,2021,23(7):1208-1220.
作者姓名:陈晓玲  唐丽玉  胡颖  江锋  彭巍  冯先超
作者单位:1.福州大学空间数据挖掘与信息共享教育部重点实验室,福州 3501082.福州大学地理空间信息技术国家地方联合工程研究中心,福州 350108
基金项目:国家自然科学基金项目(41971344)
摘    要:园林植物知识图谱可为顾及区域适应性、观赏性和生态性等因子的绿化树种的选型提供知识支持。植物描述文本的实体识别及关系抽取是知识图谱构建的关键环节。针对植物领域未有公开的标注数据集,本文阐述了园林植物数据集的构建流程,定义了园林植物的概念体系结构,完成了园林植物语料库的构建。针对现有Word2vec、ELMo和BERT等语言模型存在无法解决多义词、融合上下文能力差、运行速度慢等缺点,提出了嵌入ALBERT(A Lite BERT)预训练语言模型的实体识别和关系抽取模型。ALBERT预训练的动态词向量能够有效地表示文本特征,将其分别输入到BiGRU-CRF命名实体识别模型和BiGRU-Attention关系抽取模型中进行训练,进一步提升实体识别和关系抽取的效果。在园林植物语料库上进行方法的有效性验证,结果表明ALBERT-BiGRU-CRF命名实体识别模型的F1值为0.9517,ALBERT-BiGRU-Attention关系抽取模型的F1值为0.9161,相较于经典的语言模型(如Word2vec、ELMo和BERT等)性能有较为显著的提升。因此基于ALBERT模型的实体与关系抽取任务能有效提高识别分类效果,可将其应用于植物描述文本的实体关系抽取任务中,为园林植物知识图谱自动构建提供方法。

关 键 词:知识图谱  信息抽取  语料库  园林植物  ALBERT  词向量  实体识别  关系抽取  
收稿时间:2020-09-29

Extracting Entity and Relation of Landscape Plant's Knowledge based on ALBERT Model
CHEN Xiaoling,TANG Liyu,HU Ying,JIANG Feng,PENG Wei,FENG Xianchao.Extracting Entity and Relation of Landscape Plant's Knowledge based on ALBERT Model[J].Geo-information Science,2021,23(7):1208-1220.
Authors:CHEN Xiaoling  TANG Liyu  HU Ying  JIANG Feng  PENG Wei  FENG Xianchao
Institution:1. Key Laboratory of Spatial Data Mining & Information Sharing of Ministry of Education, Fuzhou University, Fuzhou 350108, China2. National Engineering Research Center of Geospatial Information Technology, Fuzhou University, Fuzhou 350108, China
Abstract:
Keywords:knowledge graph  information extraction  landscape plant corpus  landscape plant  ALBERT  word vectors  entity recognition  relation extraction  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《地球信息科学》浏览原始摘要信息
点击此处可从《地球信息科学》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号