首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 140 毫秒
1.
为了使桌面搜索引擎具有良好的可扩展性和执行效率,满足用户对信息的全文检索要求,在研究桌面搜索引擎基本构件的基础上,架构出可扩展性桌面搜索引擎的系统体系结构,探讨了在Visual C++环境中如何基于组件编程的方法设计各关键构件、采用倒排索引和多线程处理等关键技术。结果表明该桌面搜索引擎可扩展性强并具有良好的效率和效果。  相似文献   

2.
本文围绕互联网中网页文本蕴含的丰富地理空间信息,抽取网页文本中蕴含的地名实体,提出了一种地名共现网络模型,该模型综合考虑网页中地名的频次信息,表达网页文本中地名的共现及联系传递特征。在此基础上,提出一种基于链接分析的网页文本核心地名的提取方法,通过PageRank算法计算每个地名在共现网络中的链接权重,对网页文本构建的共现地名网络进行核心地名的提取,从而在庞大的网络资源中发现具有显著的焦点特征或导航枢纽特征的重要地名。最后,采用人民日报与新浪新闻体育版2份语料进行实验验证,证明了该方法的有效性。  相似文献   

3.
提出了利用HTMLParser和PDFBox工具包来编程实现对Web网页文本内容自动提取和PDF文档格式的转换并这些数据进行处理来适合HTK语言建模工具的要求。最后通过实验证明了采用该方法可以较好地实现语言模型的自动更新从而适应识别对象不断变化,同时减少了识别过程中的集外词并提高了语言模型的性能。  相似文献   

4.
地理要素变化检测已成为国家地理信息"十二五"规划和全国地理国情普查的重要组成部分。网页文本中蕴含海量的地理要素信息,尤其是新闻、政府、社交平台等网站的网页文本更新频繁,可为地理要素变化检测提供现势性的数据源。本文针对网页文本中地理要素变化的语言描述特点,构建了表达地理要素变化的语义知识库,设计了搜索引擎和通用主题相结合的网页爬虫,实现了相关网页文本的高效获取;采用规则模型和条件随机场模型,分别进行网页文本中地理要素变化信息抽取,包括地理要素名称、位置(地名)、时间和属性等。实验结果显示,本文设计的网页爬虫具有较高的相关网页文本获取能力,地理要素变化信息抽取的准确率能够达到70%以上,但是,语义知识库的完备程度对于信息抽取性能具有较大影响。研究成果表明,以网页文本为数据源的地理要素变化信息获取方法,能提供一种快速检测地理要素变化的新途径,与实地调绘和遥感影像检测等方法结合应用具有较好的优势互补性,可作为有力的辅助手段解决地理要素的持续更新和实时更新问题。  相似文献   

5.
微博中蕴含台风灾害损失信息识别和分类方法   总被引:1,自引:0,他引:1  
社交媒体在灾害信息的实时发布与传播中发挥着越来越重要的作用。在灾害发生过程中,社交媒体中蕴含的实时灾损信息对灾情及时响应和评估有重要意义。然而,这些涉灾文本具有信息破碎度高、文本特征稀疏、标注语料库匮乏等缺点,使得传统的基于监督学习的方法难以有效提取其中的灾损信息。为此,本文提出了一种通过扩展上下文特征和匹配特征词的方法来快速识别和分类社交媒体中蕴含的不同类别的灾损信息。本方法首先基于中文语法规则,抽取小规模不同灾损类别下微博文本中的涉灾关键词构建特征词搭配对。然后,利用词向量模型和已有词库对这些特征词搭配对进行补充和扩展。同时,根据中文词语共现规则,引入外部语料库优化特征词间的语义搭配关系。最终,以此为基础构建台风灾损分类知识库对灾情文本中蕴含的不同类别灾损信息进行识别和分类。本文以2016年9月15日台风“莫兰蒂”登陆事件作为研究案例,以评估本文方法在灾损信息识别和分类上的效果。结果表明,本文方法对微博文本中蕴含的不同类别风灾损失信息的识别和分类效果显著(各类别综合评价指标都达到了0.74以上)。基于灾损信息分类结果,本文绘制了台风影响的时空分布图,从而进一步说明本文方法在灾害损失评估和减灾救灾方面的效用。  相似文献   

6.
地理要素变化发现是地理信息数据库动态更新的重要组成部分。互联网在信息传播中扮演着越来越重要的角色,网页文本中蕴含着一些现势性很强的地理要素信息,可作为地理要素变化发现的数据源。本文结合网络爬虫和朴素贝叶斯分类模型,提出并实现了一种面向网页文本的地理要素变化发现方法。首先,本文在收集分析地理要素变化新闻锚文本的基础上,构建了网络地理要素变化新闻关键词库,并基于关键词库设计了适于地理要素变化发现的网络爬虫,实现了候选网页文本的主动获取;接着为了提取地理要素变化新闻,本文训练构造了适于地理要素变化发现的朴素贝叶斯分类器,对候选网页文本进行筛选。最后通过实验对比了本文方法与现有方法在准确性和全面性上的表现。  相似文献   

7.
为了提高专用搜索引擎的分类精确度和可控度,提出了一种新算法。根据现有的后缀树文本聚类,通过建立基本分类表,并结合专用搜索引擎的特点进行改进,将文本分类和文本聚类有机地结合起来,使改进后的算法能够通过人工的干预,不断修正自己的分类结果。实验表明,相比传统的文本分类算法,这种算法能通过自我修正能力不断提高分类准确度,并且计算开销和传统文本分类算法相当。因此,该算法通过结合文本分类和文本聚类算法,在专用搜索引擎结果处理上提出了新的思路。  相似文献   

8.
为了提高专用搜索引擎的分类精确度和可控度,提出了一种新算法。根据现有的后缀树文本聚类,通过建立基本分类表,并结合专用搜索引擎的特点进行改进,将文本分类和文本聚类有机地结合起来,使改进后的算法能够通过人工的干预,不断修正自己的分类结果。实验表明,相比传统的文本分类算法,这种算法能通过自我修正能力不断提高分类准确度,并且计算开销和传统文本分类算法相当。因此,该算法通过结合文本分类和文本聚类算法,在专用搜索引擎结果处理上提出了新的思路。  相似文献   

9.
散乱点云数据具有数据量大(海量性)、数据表达精细(高空间分辨率)、空间三维点之间无拓扑关系(散乱性)等特征,在对其进行应用前必须进行数据预处理(如去噪、配准、分割等)。而在这些数据处理过程中需频繁的进行邻域查找,如果没有高效的查询索引机制,很难实现数据自动处理。因此,如何进行数据的组织和索引,以提高后续邻域检索和查询等操作的速度,是目前点云数据处理中的一个研究热点。针对现有点云数据采用的空间索引方式的优缺点,本文提出了一种多级格网和KD树混合的空间索引,该索引提出变分辨率格网索引与KD树的混合索引模式,简称MultiGrid-KD树索引。该方法在保持网格索引算法实现简单查询效率高等优点的同时,解决了单一分辨率数据冗余的问题。以故宫太和殿的点云数据为例,对本文提出的MultiGrid-KD树索引算法和KD树、八叉树等经典算法做对比。结果表明,本文索引方法在最邻近点查询以及四邻域查询的效率上均优于KD树,以及八叉树索引。  相似文献   

10.
针对Argo海洋浮标数据的准实时性、海量性、时空异变性等特点和多种查询应用需求,分析了当前时空索引方法的优势与不足,提出了一种多频率STR-tree索引与格网索引的混合索引结构MFSTR-tree。该方法在首先轨迹束层利用动态轨迹束作为叶节点生成STR-tree结构,将STR-tree索引结构灵活、数据冗余少的优势进一步扩大;接着通过轨迹束的多种频率在采样点层构建格网索引,实现在查询效率上的提升;同时给出了该结构插入算法和查询算法的具体描述。本文以中国Argo实时资料中心提供的2015年海洋浮标数据为例,将该方法与HR-tree和STR-tree方法进行了构建效率和查询效率的对比实验,结果表明该方法在保证了构建存储效率和时间效率的同时,有效改善了原有STR-tree应用于Argo数据中的查询效率问题。  相似文献   

11.
网络爬虫是搜索引擎的重要组成部分。针对目前聚焦爬虫搜索策略的不足,提出了一种新的搜索策略解决方案。在搜索过程中对适应度高于或低于种群平均适应度的个体采用不同的交叉概率和变异概率来扩大爬虫的爬取范围、增加新个体,并通过改进遗传算子,提高聚焦爬虫的搜索效率。实验证明,基于自适应遗传算法的聚焦爬虫在一定程度上解决了传统遗传算法的"早熟"问题,而且能够爬取到更多主题相关的网页和相关度高的网页。  相似文献   

12.
蕴含地理事件微博客消息的自动识别方法   总被引:1,自引:0,他引:1  
微博客文本蕴含类型丰富的地理事件信息,能够弥补传统定点监测手段的不足,提高事件应急响应质量。然而,由于大规模标注语料的普遍匮乏,无法利用监督学习过程识别蕴含地理事件信息的微博客文本。为此,本文提出一种蕴含地理事件微博客消息的自动识别方法,通过快速获取的语料资源增强识别效果。该方法利用主题模型具有提取文档中主题集合的优势,通过主题过滤候选语料文本,实现地理事件语料的自动提取。同时,将分布式表达词向量模型引入事件相关性计算过程,借助词向量隐含的语义信息丰富微博客短文本的上下文内容,进一步增强事件消息的识别效果。通过以新浪微博为数据源开展的实验分析表明,本文提出的蕴含地理事件信息微博客消息识别方法,识别来自事件微博话题的消息文本的F-1值可达到71.41%,比经典的基于SVM模型的监督学习方法提高了10.79%。在模拟真实微博环境的500万微博客数据集上的识别准确率达到60%。  相似文献   

13.
基于负位错模型,结合粒子群算法反演龙门山中央断裂段的三维滑动速率。反演结果表明,龙门山断裂带的现今构造运动整体而言为右旋逆冲断层,滑动速率较小,其运动特征具有显著的分段性。断裂带南段以逆冲为主,兼有左旋特征;在向北延展过程中逐渐转化为右旋走滑,且走滑分量逐渐加大;龙门山断裂带南北两端具有挤压特征,其中段显示一定的拉张。由此推断,龙门山断裂带现今构造活动,在青藏块体整体移动的影响下,还与其区域应力场和内部地壳结构有关。基于负位错模型,结合粒子群算法反演龙门山中央断裂段的三维滑动速率。反演结果表明,龙门山断裂带的现今构造运动整体而言为右旋逆冲断层,滑动速率较小,其运动特征具有显著的分段性。断裂带南段以逆冲为主,兼有左旋特征;在向北延展过程中逐渐转化为右旋走滑,且走滑分量逐渐加大;龙门山断裂带南北两端具有挤压特征,其中段显示一定的拉张。由此推断,龙门山断裂带现今构造活动,在青藏块体整体移动的影响下,还与其区域应力场和内部地壳结构有关。  相似文献   

14.
随着地理信息服务应用领域和受众群体的日益广泛,人们对地理信息服务的需求越来越多元化。一方面网络上注册和发布的地理信息服务的数量急剧增长;另一方面人们对如何高效发现兴趣服务、组合兴趣服务以满足兴趣需要却常感到困惑。当前,用户只能通过关键字搜索并结合空间过滤条件查询OGC(Open Geospatial Consortium)的目录服务,来发现所需的数据和服务。用户在受益于目录服务带来的资源搜索便捷的同时,经常受到查全率和查准率不高的困扰。面对日益庞大的服务群,如何自动、快速、准确地发现目标服务,成为影响地理信息服务进一步发展与应用的瓶颈。本文围绕地理信息服务语义标注原理方法与关键技术展开研究,通过引入信息检索技术和语义网技术、语义服务技术,从面向地理信息服务语义标注的本体建模、基于地理概念匹配的语义标注算法、融合相似性度量与包含性推理的语义匹配与服务发现,以及语义标注和服务匹配质量评价方法4个方面进行了深入研究。针对地理概念半自动语义标注新算法、地理信息服务语义发现与匹配方法、服务语义标注和服务匹配质量评价、应用试验等具体研究内容进行了实验设计,并给出了需解决的核心问题,为当前地理信息服务匹配方法提供了新思路。  相似文献   

15.
在分析当前网络地图出版特别是专题地图网络出版现状的基础上,本文提出了版式网络地图的概念、原理及技术方法。版式网络地图克服了当前专题地图出版GIS化和静态图片化的倾向,在为用户提供高保真地图阅读体验的同时,实现了专题数据和专题地图同时发布的模式。该模式的主要技术特点包括:对专题地图图片和专题地图数据进行四叉树分解,将专题地图图片划分为规则格网大小的瓦片金字塔;将专题数据要素分解为可变分辨率的格网集合,以唯一标识记录每个格网及其(需查询的)属性,并采用支持区域、时间、指标、数据四元组的专题数据元进行存储,以便高效地索引专题数据,从而实现专题地图数据的高效查询。同时,本文还介绍了版式网络地图发布模式在地形图出版、原图版式发布、《中华人民共和国人口与环境变迁地图集》电子版网络地图发布系统中的应用案例。最后,对比分析了WebGIS、静态地图图片、PDF/GeoPDF地图、SVG地图以及版式网络地图5种发布模式的优缺点,结果表明版式网络地图是一种有望在专题地图出版领域推广和应用的轻量级地图发布模式。  相似文献   

16.
网络环境下,如何让用户快速发现所需数据是地学数据共享平台长期面临的挑战之一。本文基于国家地球系统科学数据共享平台网站服务器日志数据获取用户搜索行为及数据集访问行为,使用聚类算法挖掘用户行为模式,并基于会话聚类 模式开发在线搜索和访问预测算法。在数据预处理阶段,对原始服务器日志数据进行清洗、用户识别、用户会话识别、搜索词提取。在模式挖掘阶段,采用DBSCAN算法对会话进行聚类。考虑到会话向量值的二元性,聚类算法中的距离采用Jaccard距离函数计算。视每个会话聚类包含的搜索词集合为一个文本,所有用户历史搜索词集合为语料库,统计各聚类中搜索词的TF-IDF值。在线搜索推荐,以搜索词检索各聚类中TF-IDF值,返回TF-IDF值最高的搜索词所属聚类,并给出该聚类的高频项目作为推荐。在线访问推荐,则以用户实时访问向量为查询向量,计算该向量与聚类中心的聚类。根据聚类排序,给出距离最近的聚类,并产生该聚类中高频项目作为推荐。实验结果表明基于TF-IDF和聚类的搜索推荐有较高的准确率和召回率,访问推荐效果基于高频统计的推荐有较大提高。研究可得出以下结论:① 地学共享网用户访问和搜索行为体现了专业性的特点,其行为较普通网站用户可预测性更好;② 对于地学数据共享用户行为预测,需明确定义用户行为,并采用合适的距离函数描述行为相似性;③ 通过搜索词TF-IDF值来预测用户数据需求的方法可行,以此产生的推荐可作为搜索结果的补充。本研究可服务于地学领域数据共享平台建设,提高共享服务质量,也可为其他领域科学数据共享提供技术方法借鉴。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号