首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
网络新闻文本在环境污染事件感知方面具有重要的应用价值。然而,由于环境污染事件的“多米诺效应”,网络新闻文本往往存在对多类型污染事件的混合描述,现有事件检测方法容易导致文本分类错误。本文提出一种基于联合主题特征的网络新闻文本蕴含环境污染事件检测方法,通过兼顾环境网络新闻文本的全局特征和主题分布特征来改善检测分类效果。该方法采用词频-逆文档频率向量对文档进行全局特征表示,并结合文档的主题分布特征向量,构建联合主题特征向量作为监督分类模型的输入,实现环境污染事件检测。实验结果表明,使用联合主题特征的支持向量机方法进行事件类别检测平均F1值相较于全局特征提高15%,相较于主题特征提高36%。本文提出的网络新闻文本蕴含环境污染事件检测方法可支持污染事件类型检测和影响信息抽取,有助于环境污染事件的时空统计与变化趋势预测。  相似文献   

2.
随着气候变暖加剧,全球极端天气事件频发,重大气象灾害的发生频率与日俱增。研究气候变化与气象灾害发生频率的关系,对于气候变化背景下的防灾减灾具有重要意义。文献资料及泛在网络数据中蕴含了海量的气象灾害时空事件,为此,本文基于自然语言处理技术研发了文本气象灾害时空事件自动抽取方法。① 提出了基于专业文献的由粗到精的气象灾害标注语料训练库构建方法。首先针对不同文献资料存在的歧义和不兼容等问题,构建了面向文本事件统一的气象灾害知识体系。然后构建了基于章节结构的粗标注方法,分别针对长文本(现代文)和短文本(文言文)研发了基于Labeled LDA模型及基于TF-IDF和N-gram模型的精细标注语料筛选方法,解决了语料库的快速构建问题;② 基于BERT-CNN模型研发了融合上下文语义特征和多粒度的局部语义特征的、面向长短文本一体化处理的气象灾害时空事件自动分类方法;③ 利用该方法分别从文言文和泛在网络数据中自动抽取了灾害时空事件,其宏F1值分别达到89.09%和80.06%,主要气象灾害时空事件分布与专业统计数据相关性较高;④ 基于以上结果,重建了我国各历史时期灾害时空演变过程,发现各时期灾害数据量整体呈现出逐步上升趋势,暴雨灾害、洪涝灾害与干旱灾害是影响我国的主要灾种。本方法既可实现网络长文本事件的自动发现,也可实现文言文短文本事件的自动检测,为文本数据便捷应用于气象灾害研究和监测提供了新的技术方法。  相似文献   

3.
地理知识库是地理实体及其相互间关系的集合,对于智能搜索、问答、推荐等知识服务有重要的支撑作用.然而,已有的地理知识库由于来源、形式、构建者等的不同,在实体地名、空间位置、类别等方面存在"同义异形"和"同形异义"的语义异构现象,影响了地理知识库间的知识融合与共享.语义对齐是解决语义异构的一种有效方法,其中实体类别对齐是语...  相似文献   

4.
新闻事件类型识别的核心是文本分类问题,可利用模式识别或者机器学习来解决。互联网中的新闻事件种类多样,各类事件都有不同的结构特征,在自然语言中的表达方式也多种多样,基于模式识别的事件抽取难以覆盖全部的事件表达模式,识别召回率不高。本文使用机器学习方法来进行新闻事件的抽取,设计了词法、句法和语义三类不同类型的特征,并基于支持向量机实现新闻事件的类型识别。支持向量机模型适合解决自然语言这类高维数据的分类问题,能够有效捕捉不同特征之间的分类差异,具有较好的准确率和召回率。  相似文献   

5.
网络文本蕴含地理实体关系抽取技术,需要高时效、强鲁棒的关键词提取方法。与监督学习方法相比,无监督学习方法能捕获文本的动态变化特征并发现新增的关系类型,因此备受关注。其中,基于频率的关键词提取方法获得广泛研究,然而,网络文本蕴含的地理实体关系分布稀疏,基于频率的方法难以直接应用于地理实体关系的关键词提取。为解决该问题,本文基于公开访问的网络资源,提出一种语境增强的关键词提取方法。首先,基于在线百科和开放的同义词词典,通过语境合并和语义融合创建增强的语境,以降低语境中词语的稀疏性。接着,Domain Frequency和Entropy频率统计方法从增强语境中自动构建一个大规模语料。然后,基于该语料选择词法特征并统计其权值,用于扩大语境中词语间的差异。最后,使用选择的词法特征度量增强语境中词语的重要性,将权值最大的词语作为描述地理实体关系的关键词,并基于大规模真实网络文本开展实验。实验结果表明:对于地理实体关系的关键词识别,本文方法的平均精度为85.5%,比Domain Frequency和Entropy方法分别提高41%和36%;对于新增关键词识别,本文方法的精度达到60.3%。语境增强的关键词提取方法能有效地处理地理实体关系分布的稀疏性,可服务于网络文本蕴含地理实体关系的抽取。  相似文献   

6.
网络文本是构建和填补大规模地理知识图谱的重要地理信息来源。但网络文本来源广泛、动态性强、表达方式复杂多样、蕴含地理信息良莠不齐,网络文本蕴含地理信息质量评估面临评估对象多层次、质量维度不明确、评估指标多元化、深层次指标难获取和评估方法多样化的挑战。因此,本文提出了一种网络文本蕴含地理信息质量评估框架(QAF-GIWT)。QAFGIWT面向网络文本获取地理信息过程,明确了数据源、数据项和数据集3层质量评估对象,针对不同层次评估对象定义了包含相关性、新颖性、可靠性和完整性4个质量维度和相应的量化评估指标,系统地梳理了质量评估过程中所涉及指标计算、指标综合和质量预测方法的特点及其适用性。其中,借助自然语言处理技术及相应的指标计算方法,构建了包含单元地理语义比率、地理语义含量比率、平均地理信息含量比率和地理信息含量比率、地理实体比率、窗口地理信息含量比率等指标。实验中针对马蜂窝等类型网站特性设计了QAF-GIWT框架,针对多层次质量指标的综合评估,采用了层次分析法进行可靠性综合评估,应用实验案例验证了QAF-GIWT框架的有效性。QAF-GIWT提供了一整套囊括质量维度、质量指标和质量评估方法...  相似文献   

7.
随着我国经济的快速发展,如何快速实现突发事件、自然灾害等危机事件的管理、发布与处置对政府职能人员具有重要意义。本文以要素单元为基本单位,在Google地图服务的支持下,基于ASP.NET+C#网页开发技术、Ajax技术实现了面向危机管理的地理事件的动态标注、快速检索与实时发布。结果表明该方法有利于地理事件中带有时间标签和位置信息的要素单元的表达,提高了危机事件的应急管理水平。  相似文献   

8.
研究如何根据已有的海量旅游信息及数据,为游客个性化推荐旅游景点具有重要意义.本文利用从Flickr网站获取的2013-2018年香港特别行政区范围内的地理标记照片来识别旅游景点,并根据游客游览顺序重建旅游轨迹.在此基础上,针对现有方法尚未考虑游客偏好在旅行过程中会发生动态变化的问题,提出一种基于隐含狄利克雷分布模型(L...  相似文献   

9.
地理对象的时空回溯是时态GIS关注的热点,并在GIS应用领域有着迫切需求.时空回溯能够蓖现历史状态、跟踪变化、预测未来,有助于展现和分析整个地理变化过程.基于现实世界中的事件是引起地理要素变更的根本原因,本文从要素和事件两方面着手,以基础地理数据为例,归纳常见的地理要素变更类型,同时,建立蕴含事件关联及约束的事件树索引体系.在此基础上,剖析事件与要素变更的关联机制,设计时空回溯路线"事件--变更操作--要素状态",提出基于事件树的地理要素时空回溯方法,实现任意范围地理要素和单要素全生命周期的回溯.探讨了任意范同回溯中重叠区域内要素的回溯判别条件,并给出示例反演了跨范围单要素的全生命周期的时空回溯过程.  相似文献   

10.
地理要素变化检测已成为国家地理信息"十二五"规划和全国地理国情普查的重要组成部分。网页文本中蕴含海量的地理要素信息,尤其是新闻、政府、社交平台等网站的网页文本更新频繁,可为地理要素变化检测提供现势性的数据源。本文针对网页文本中地理要素变化的语言描述特点,构建了表达地理要素变化的语义知识库,设计了搜索引擎和通用主题相结合的网页爬虫,实现了相关网页文本的高效获取;采用规则模型和条件随机场模型,分别进行网页文本中地理要素变化信息抽取,包括地理要素名称、位置(地名)、时间和属性等。实验结果显示,本文设计的网页爬虫具有较高的相关网页文本获取能力,地理要素变化信息抽取的准确率能够达到70%以上,但是,语义知识库的完备程度对于信息抽取性能具有较大影响。研究成果表明,以网页文本为数据源的地理要素变化信息获取方法,能提供一种快速检测地理要素变化的新途径,与实地调绘和遥感影像检测等方法结合应用具有较好的优势互补性,可作为有力的辅助手段解决地理要素的持续更新和实时更新问题。  相似文献   

11.
以提高地名地理实体数据自动化生产程度为切入点,充分利用矢量基础地理框架数据成果,提出了一种地名地理实体数据自动获取方法。首先结合矢量基础地理框架数据的数据分布特点,制定了合理的地名地理实体数据自动提取策略;在此基础上,针对所提取的数据集存在重复地名、同一地名的地理实体数据存储分散或被动分割等问题,通过设计有效的地名匹配策略,对同一地名进行去除重复处理,在此基础上将对应的地名地理实体数据进行归并处理;最后,结合实体数据的组织特点,建立了适合于点、线、面、多点、多线、多面、几何集合等不同类型的地名地理实体数据重组方法,实现对地名地理实体数据的空间重组。实验表明,采用所提出的方法,不仅能有效地获取地名地理实体数据,满足地名工程建设需求;而且改变了传统的数据生产模式,充分利用了现有数据成果,避免了地名地理实体数据的重复建设。该方法的提出为地名相关工程建设中地名地理实体数据的生产、更新提供了一种新思路和新方法。  相似文献   

12.
微博中蕴含台风灾害损失信息识别和分类方法   总被引:1,自引:0,他引:1  
社交媒体在灾害信息的实时发布与传播中发挥着越来越重要的作用。在灾害发生过程中,社交媒体中蕴含的实时灾损信息对灾情及时响应和评估有重要意义。然而,这些涉灾文本具有信息破碎度高、文本特征稀疏、标注语料库匮乏等缺点,使得传统的基于监督学习的方法难以有效提取其中的灾损信息。为此,本文提出了一种通过扩展上下文特征和匹配特征词的方法来快速识别和分类社交媒体中蕴含的不同类别的灾损信息。本方法首先基于中文语法规则,抽取小规模不同灾损类别下微博文本中的涉灾关键词构建特征词搭配对。然后,利用词向量模型和已有词库对这些特征词搭配对进行补充和扩展。同时,根据中文词语共现规则,引入外部语料库优化特征词间的语义搭配关系。最终,以此为基础构建台风灾损分类知识库对灾情文本中蕴含的不同类别灾损信息进行识别和分类。本文以2016年9月15日台风“莫兰蒂”登陆事件作为研究案例,以评估本文方法在灾损信息识别和分类上的效果。结果表明,本文方法对微博文本中蕴含的不同类别风灾损失信息的识别和分类效果显著(各类别综合评价指标都达到了0.74以上)。基于灾损信息分类结果,本文绘制了台风影响的时空分布图,从而进一步说明本文方法在灾害损失评估和减灾救灾方面的效用。  相似文献   

13.
灾害期间的舆情引导有助于维护社会稳定。社交媒体是舆论传播的重要渠道,通过微博评论了解用户的网络情感及关注的话题,可以帮助相关舆情监测部门掌握公众的关注热点,从而选择适当的干预节点来应对网络舆情,并对公众情绪进行疏导,这对于应急管理具有现实意义。现有的研究大多是利用有监督的机器学习方法进行情感分类,这需要人工进行语料的标注,工作量大。本文根据微博评论文本的特点,综合考虑情感词以及表情符号等多重情感源,构建了台风灾害领域情感词典。在此基础上,提出了一种基于情感词语义规则的情感倾向计算方法,以及基于词向量的话题聚类方法。首先,采集了近年5次台风灾害期间共计40多万条微博评论文本,基于大连理工情感词汇本体库进行扩展构建了台风灾害领域情感词典,结合PMI法构建表情符号词典,根据语义规则确定情感倾向,并使用3500条评论文本验证了该方法的有效性。然后,本文基于词向量、TF-IDF与K-means的聚类方法探索灾害期间热点话题。最后,以2020年4号台风“黑格比”为例,基于台风期间的5万余条微博评论文本进行了舆情情感分析,并识别出6类与台风相关的话题。通过时空分析发现,随着时间的推移,微博评论文本的数量发生一定变化,评论数量多的地区大都集中在沿海地区和经济水平高的地区,台风登陆当天浙江省的恐惧情感达到最高。结果表明,基于语义规则和词向量的台风灾害网络情感分析方法,能在类似灾害事件发生时为政府部门掌握和引导网络舆情提供辅助。  相似文献   

14.
地理实体关系语料库是地理信息获取与地理知识服务的基础数据资源,其规模直接影响机器学习模型训练的效果。快速更新的网络文本不断涌现新的关系实例,要求语料库及时更新以覆盖更丰富的关系实例。手工构建和更新语料库成本高昂,亟需一种快速构建大规模地理实体关系语料库的方法。本文提出一种基于回标技术的地理实体关系语料库构建方法。首先,参考地理实体分类标准与语义关系、空间关系分类标准,针对地理实体关系的自然语言描述习惯,建立地理实体关系的标注体系;然后,结合精确匹配与模糊匹配策略,提高客体匹配的覆盖率;接着,基于优序图法建立句子打分规则,实现种子三元组到句子映射的定量评价;最后,使用中文百度百科文本验证方法的有效性。实验结果显示,本文方法平均回标成功率为67.83%,关系标注的准确率为76.36%。相比人工构建空间关系标注语料库的过程,本文提出的语料自动构建方法,标注速度快,规模大,为自动扩充标注语料库提出了可行方案。同时,该方法兼顾了地理实体间的语义关系和空间关系,且关系类型不受限,可用于开放式关系抽取任务。  相似文献   

15.
基于内蒙古地区及其周边(96°~126°E, 36°~54°N)2016~2021年天然地震和爆破事件,首先采用db7、sym6、rbio1.5小波基函数分别对事件波形进行离散、静态、小波包4层小波分解,然后提取能量比、香农熵、能量熵3种特征参数,最后按照不同的小波分解方式、核函数、支持向量机和特征值随机组合的方式进行288组实验。结果表明,“DWT+υ-SVC+db7+线性核+能量比+香农熵+能量熵”的识别率最高为95%,说明该方法更适合内蒙古地区,可为测震台网识别天然地震和爆破事件提供较为可靠的参考依据。  相似文献   

16.
为了解决目前地理信息发现查全率和查准率不高的问题,提出了一种简单语义的地理信息服务发现方法。该方法引入虚拟文档的概念,将服务划分为"操作级"进行匹配;运用同义词对服务操作中的概念词汇进行简单语义扩展;引入词汇语义相似度概念,应用词汇语义库来实现地理信息服务的简单语义匹配。实验结果表明,文中提出的方法在查全率和查准率等性能上均优于基于关键字和向量空间模型的方法,且完全基于当前网络服务环境实现。  相似文献   

17.
同一地理实体在不同的时空粒度下会表现出相异的位置动态变化规律。近年来,如何对地理实体在不同时空粒度下的时空位置进行组织和表达成为GIS研究的热点之一。本文基于面向对象的思想,设计了“三级空间”和“0-1位置变化序列”,并由此提出一种地理实体时空位置的多粒度表达方法。在实体时空位置的多粒度描述方面,对于任一地理实体,空间维度上构建一种具有不同空间粒度的“全局—相对—对象”三级空间;时间维度上将不同时段或时刻转换为一系列不同时间粒度的离散时间点。在实体时空位置的多粒度存储组织方面,将地理实体时空位置的变化过程划分为不同阶段,对该实体在不同时间点下的空间位置信息设置不同的存储方式,可合理减少信息冗余。在实体时空位置的多粒度转换方面,提出基于三级空间的递进认知、时间点与时段之间快速转换等策略,初步实现了地理实体时空位置在不同时空粒度下的转换。该方法可有效地描述地理实体在可变时空粒度下的时空位置,为时态GIS和多粒度时空数据库的建立提供参考。  相似文献   

18.
案例模型是基于案例推理方法(CBR)的推理基础,而时空数据模型是地理信息系统时空表达的概念基础。基于案例的推理方法应用于地理领域,案例表达则不能仅采取传统的表示方法,需要结合地理问题的特点;但时态地理信息系统(T-GIS)的时空数据模型又不能直接采用,需要考虑地理案例表达和推理的需求。通过对地理案例应用的分析和时空过程特点的总结,提出分级描述框架的地理案例时空过程概念表达模型,并构建其物理表达模型。本文以中国南海海洋涡旋为例进行了验证,表明此模型可应用于具有完整生命周期且变化是连续渐进地理现象的研究。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号