首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
基于DOM树模型进行网页建模,同时利用深度优先的递归算法对DOM树模型进行遍历.通过将HTML文档转换为DOM树,对其遍历后给树的节点唯一标号来对网页进行分析.为了更直观的分析网页结构还采用图形界面的形式来显示树型DOM文档.实验表明,提出的这种方法能够很好地分析Web页面标记的嵌套结构,并能准确地与转化成DOM树之后的嵌套结构相匹配,从而达到了精确的网页分析和网页节点定位的目的.  相似文献   

2.
针对整个城市规划过程的参与者对规划数据的不同种类、不同层次认知需求,本文利用本体思想对包括GIS数据、规划文档、规划图件等多源异构的规划数据进行关系重构,设计本体模型要素的数据语义关系,定义数据间的关联关系,实现基于本体方法的规划领域语义表达算法,方便了各类规划参与者对规划方案认识的交流:同时根据用户特征分类,进行本体关系的逻辑推理,过滤冗余信息,进行多源异构规划数据的可视化。  相似文献   

3.
词频反文档频率是文档特征权值表示的常用方法,用以评估单词对于语料库中的其中一份文件的重要程度。通过合理映射病例库与语料库的词汇关系,对词频反文档频率模型进行改进,并将改进后的词频反文档频率模型应用到针灸处方疾病症状权重挖掘中,计算出疾病所对应的各种症状权重。实验统计了106种疾病,其中与临床诊疗经验相符合的有84种,准确率达79.2%,实验表明改进的模型能得到较好的疾病症状权重鉴别效果。  相似文献   

4.
网络新闻文本在环境污染事件感知方面具有重要的应用价值。然而,由于环境污染事件的“多米诺效应”,网络新闻文本往往存在对多类型污染事件的混合描述,现有事件检测方法容易导致文本分类错误。本文提出一种基于联合主题特征的网络新闻文本蕴含环境污染事件检测方法,通过兼顾环境网络新闻文本的全局特征和主题分布特征来改善检测分类效果。该方法采用词频-逆文档频率向量对文档进行全局特征表示,并结合文档的主题分布特征向量,构建联合主题特征向量作为监督分类模型的输入,实现环境污染事件检测。实验结果表明,使用联合主题特征的支持向量机方法进行事件类别检测平均F1值相较于全局特征提高15%,相较于主题特征提高36%。本文提出的网络新闻文本蕴含环境污染事件检测方法可支持污染事件类型检测和影响信息抽取,有助于环境污染事件的时空统计与变化趋势预测。  相似文献   

5.
提出了利用HTMLParser和PDFBox工具包来编程实现对Web网页文本内容自动提取和PDF文档格式的转换并这些数据进行处理来适合HTK语言建模工具的要求。最后通过实验证明了采用该方法可以较好地实现语言模型的自动更新从而适应识别对象不断变化,同时减少了识别过程中的集外词并提高了语言模型的性能。  相似文献   

6.
介绍了一种基于Delta-Sigma调制小数分频技术和YTO的宽带、高分辨率频率合成器的设计方案.对环路的数学模型进行了详细的分析,给出了计算机辅助设计结果.实测表明,方案可实现输出频率2-4 GHz,分辨率1Hz,并具有低相噪的特点.  相似文献   

7.
在遥感应用领域,对图像质量的要求较为严格,因此,在遥感图像数据的噪声处理中,应注重保持高质量图像。本文提出了一种基于小波变换的遥感图像有损压缩优化技术。首先分析了离散余弦变化在数据压缩中存在的缺陷与不足;其次应用小波的良好变焦性能,提出2层2维小波图像的塔式分解方案,分离出图像的直流、低频和高频分量;最后在统计意义上,基于最小均方误差原理,针对遥感图像的低频和高频分量构造最优量化器,实现图像的高质量压缩,并通过实验,得到压缩比与峰值信噪比的大致关系。  相似文献   

8.
在反垃圾邮件的过滤技术中,贝叶斯算法是使用最为广泛的方法之一.在充分分析贝叶斯算法在垃圾邮件过滤技术中原理及方法的基础上,指出了在过滤中文垃圾邮件应用中的不足之处,然后给出了一个可行的改进方案.改进方案将邮件视为句间有序,句子内部关键词无序但句间具有相关性,从而可以得到比传统方法较好的实验结果;而且由于减少了传统方法处理时信息的丢失,这样也可以达到改善实验结果的目的.  相似文献   

9.
介绍一种基于压控振荡器和GPS技术的时间频率基准,实现可编程脉冲、频率输出,达到了长期稳定性与短期稳定性兼优的目的。  相似文献   

10.
地理要素变化发现是地理信息数据库动态更新的重要组成部分。互联网在信息传播中扮演着越来越重要的角色,网页文本中蕴含着一些现势性很强的地理要素信息,可作为地理要素变化发现的数据源。本文结合网络爬虫和朴素贝叶斯分类模型,提出并实现了一种面向网页文本的地理要素变化发现方法。首先,本文在收集分析地理要素变化新闻锚文本的基础上,构建了网络地理要素变化新闻关键词库,并基于关键词库设计了适于地理要素变化发现的网络爬虫,实现了候选网页文本的主动获取;接着为了提取地理要素变化新闻,本文训练构造了适于地理要素变化发现的朴素贝叶斯分类器,对候选网页文本进行筛选。最后通过实验对比了本文方法与现有方法在准确性和全面性上的表现。  相似文献   

11.
社交用户的文本具有地理差异性,并且社交关系密切的用户之间居住位置更近,因而文本和社交网络均可用于推断用户常驻位置。现有基于文本和社交网络的用户常驻位置预测方法对文本的位置指示性特征挖掘不充分,而用户文本中地名等位置指示信息却提供了最有用的位置信号。因此,本文提出一种基于地理命名实体识别(GER)和图卷积神经网络(GCN)的社交用户位置预测方法。首先,通过地理命名实体识别方法对用户文本进行过滤以凸显位置指示性特征;其次,基于提及关系和关注与被关注关系抽取社交网络;再次,结合社交网络和用户文本内容,采用基于图卷积神经网络的方法进行用户常驻位置预测;最后,将GER-GCN与GCN以及最新研究成果进行比较,并探究该模型的小样本学习能力及其影响因素。基于Geotext数据集和2个微博数据集的实验表明:① GER文本过滤方法可显著提升用户位置预测精度;② 在所有实验中,GER-GCN的预测精度最高,并在基准数据集GeoText上比最新研究成果提升1%~2%;③ 在最小监督的现实场景中,本文印证了GER-GCN模型的小样本学习能力,并发现社交网络质量对其小样本学习能力起到决定性作用。实验结果验证了GER-GCN方法的先进性,且该方法符合社交媒体现实场景的应用需求。  相似文献   

12.
地理要素变化检测已成为国家地理信息"十二五"规划和全国地理国情普查的重要组成部分。网页文本中蕴含海量的地理要素信息,尤其是新闻、政府、社交平台等网站的网页文本更新频繁,可为地理要素变化检测提供现势性的数据源。本文针对网页文本中地理要素变化的语言描述特点,构建了表达地理要素变化的语义知识库,设计了搜索引擎和通用主题相结合的网页爬虫,实现了相关网页文本的高效获取;采用规则模型和条件随机场模型,分别进行网页文本中地理要素变化信息抽取,包括地理要素名称、位置(地名)、时间和属性等。实验结果显示,本文设计的网页爬虫具有较高的相关网页文本获取能力,地理要素变化信息抽取的准确率能够达到70%以上,但是,语义知识库的完备程度对于信息抽取性能具有较大影响。研究成果表明,以网页文本为数据源的地理要素变化信息获取方法,能提供一种快速检测地理要素变化的新途径,与实地调绘和遥感影像检测等方法结合应用具有较好的优势互补性,可作为有力的辅助手段解决地理要素的持续更新和实时更新问题。  相似文献   

13.
The surface-related multiple elimination (SRME) method is based on feedback formulation and has become one of the most preferred multiple suppression methods used. However, some differences are apparent between the predicted multiples and those in the source seismic records, which may result in conventional adaptive multiple subtraction methods being barely able to effectively suppress multiples in actual production. This paper introduces a combined adaptive multiple attenuation method based on the optimized event tracing technique and extended Wiener filtering. The method firstly uses multiple records predicted by SRME to generate a multiple velocity spectrum, then separates the original record to an approximate primary record and an approximate multiple record by applying the optimized event tracing method and short-time window FK filtering method. After applying the extended Wiener filtering method, residual multiples in the approximate primary record can then be eliminated and the damaged primary can be restored from the approximate multiple record. This method combines the advantages of multiple elimination based on the optimized event tracing method and the extended Wiener filtering technique. It is an ideal method for suppressing typical hyperbolic and other types of multiples, with the advantage of minimizing damage of the primary. Synthetic and field data tests show that this method produces better multiple elimination results than the traditional multi-channel Wiener filter method and is more suitable for multiple elimination in complicated geological areas.  相似文献   

14.
Contourlet��InSAR����ͼ�˲������о�   总被引:1,自引:0,他引:1  
?о??????Contourlet?任?????????????????????·?????????Goldstein??С????????????????в????????????????????????????????????????????????????????к?????????????????????????????????????????в??????Ч??????????С???????????????????Щ????????Goldstein???Ч??????  相似文献   

15.
互联网页面和社交网络文本中蕴含丰富的道路交通信息,是其他交通信息采集平台的有效补充。然而,自然语言文本形式的交通信息多以线性参考或地标方位描述交通事件空间位置,且大量存在事件元素缺失或隐含现象,对交通信息的自动化抽取有着较大影响。考虑到交通信息的自然语言表达方式虽然自由随意,但表达模式相对固定,提出一种从互联网文本中抽取道路交通信息的模式匹配方法。首先,基于道路交通事件描述的语言特征构建模式库;然后,以特征词词性序列的形式表达互联网文本和抽取模式,利用DTW距离度量序列相似度,实现抽取模式匹配;最后,在匹配抽取模式和填补规则指导下获取结构化的道路交通信息。由上海市城市交通相关门户网站和微博客平台的实验过程显示,本文所提出的模式匹配方法,抽取道路交通信息的准确率和召回率分别达到90%和80%以上,表明该方法能有效抽取互联网文本蕴含的道路交通信息,且实现过程相对简单,易于扩展,具有可用性。  相似文献   

16.
电磁法存在大量的汉克尔积分,由于积分核函数的复杂性,该类积分不存在解析解,采用数值方法求解汉克尔积分是电磁法正演研究中的关键问题。数值滤波法运算速度快、执行效率高,克服了被积函数的奇异性和高振荡性问题,是数值求解汉克尔积分的重要方法。采用存在解析解的汉克尔积分,对比研究了5套高精度汉克尔滤波系数,总结了不同数值滤波算法的计算精度和误差分布特点。结果表明,5套数字滤波的快速汉克尔变换算法在逼近相应的理论解析解时,不存在振荡现象,且计算精度高;汉克尔积分计算精度均随着发收距的增大而降低;计算精度并不一定随着数值滤波系数个数的增多而提高。分别采用5种滤波系数对水平电偶极子和垂直磁偶极子的电磁场进行计算,得到的电场和磁场的形态基本一致。  相似文献   

17.
ASAR斑点噪声模型验证及噪声滤除效果评价   总被引:3,自引:0,他引:3  
ASAR合成孔径雷达数据因影像中相干斑点噪声的存在,影响了地物信息定量的提取与应用效果。本文结合雷达信号传输理论,推导出适于ASAR多视图像的功率概率分布。并从理论推导和试验两方面证实了ASAR影像符合乘性噪声模型。利用乘性噪声模型的滤波算法,采用不同滤波器和不同大小窗口对ASAR影像的斑点噪声进行了滤除,并用平滑指数、边缘保持指数等因子对滤除结果进行评价,通过对比发现:7×7窗口的Enhanced Lee滤波的效果最好。  相似文献   

18.
网络文本蕴含地理实体关系抽取技术,需要高时效、强鲁棒的关键词提取方法。与监督学习方法相比,无监督学习方法能捕获文本的动态变化特征并发现新增的关系类型,因此备受关注。其中,基于频率的关键词提取方法获得广泛研究,然而,网络文本蕴含的地理实体关系分布稀疏,基于频率的方法难以直接应用于地理实体关系的关键词提取。为解决该问题,本文基于公开访问的网络资源,提出一种语境增强的关键词提取方法。首先,基于在线百科和开放的同义词词典,通过语境合并和语义融合创建增强的语境,以降低语境中词语的稀疏性。接着,Domain Frequency和Entropy频率统计方法从增强语境中自动构建一个大规模语料。然后,基于该语料选择词法特征并统计其权值,用于扩大语境中词语间的差异。最后,使用选择的词法特征度量增强语境中词语的重要性,将权值最大的词语作为描述地理实体关系的关键词,并基于大规模真实网络文本开展实验。实验结果表明:对于地理实体关系的关键词识别,本文方法的平均精度为85.5%,比Domain Frequency和Entropy方法分别提高41%和36%;对于新增关键词识别,本文方法的精度达到60.3%。语境增强的关键词提取方法能有效地处理地理实体关系分布的稀疏性,可服务于网络文本蕴含地理实体关系的抽取。  相似文献   

19.
In order to apply Satellite Remote Sensing(RS) to minig areas,some key issues should be solved,Based on an introduction to relative studying background,related key issues are propsed and analyzed oriented to the devel-opment of RS information science and demands of mining aress ,Band selection and combination optimization of Landsat TM is discussed firstly,and it proved that the combination of Band 3 ,Band 4 and Band 5 has the largest informaiton amount in all three-band combination schemes by both N-dimensional entropy method and Genetic Algorithm(GA) ,After that the filtering of Radarsat image is disccussed ,Different filtering methods are experimented and compared,and adaptive methods are more efficient than others,Finally the classification of Satellite RS image is studied,and some new methods including classification by improved BPNN (Back Propagation Neural Network) and classification based on GIS and knowledge anre propsed.  相似文献   

20.
针对GPS/BDS实时监测坐标序列中多路径误差的周日重复特性和高频随机噪声,分别采用EMD以及EMD与小波阈值去噪相结合的方法对现有坐标序列构建多路径时序模型,并通过恒星日滤波削弱后续坐标序列中具有强相关性的多路径误差。实测数据的处理结果表明,EMD可以很好地去除GPS/BDS实时监测序列中的高频随机噪声并削弱多路径误差的影响,提高实时监测精度50%左右,EMD和小波组合方法较单EMD效果稍好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号