摘 要: | 实现文本中地质信息的结构化抽取、语义解析、可视化表达和知识图谱构建,将为地质大数据的深度挖掘与利用提供有力的数据基础和技术支撑。无论是采用传统统计模型还是深度学习模型,地质信息语义解析均需要已标注的语料库的支持。特别是,地质信息的文本描述具有领域性特征,无法通过通用自然语言语料迁移实现。因此,不同层次的地质信息标注语料库的构建成为地质语义信息解析的关键和基础。文章在分析中文文本中地质语义信息描述语言特点的基础上,从地质实体的时空和属性描述特征出发,清晰表达地质实体的各种语义关系,制定了中文文本的地质语义信息标注体系和标注规范,自主研发了“交互式地质语义信息标注工具”,解决了传统人工标注存在错误率高、重复工作量大等缺点,以矿产资源的中文研究文献和报告为数据源,构建了大规模地质语义信息标注语料库,较为有效地解决了当前相关标准和规模化标准数据匮乏的问题。
|