首页 | 本学科首页   官方微博 | 高级检索  
     

基于混合过滤的地学数据个性化推荐方法设计与实现
引用本文:王末,郑晓欢,王卷乐,柏永青. 基于混合过滤的地学数据个性化推荐方法设计与实现[J]. 地理研究, 2018, 37(4): 814-824. DOI: 10.11821/dlyj201804014
作者姓名:王末  郑晓欢  王卷乐  柏永青
作者单位:1. 中国农业科学院农业信息研究所,北京 1000812. 农业部农业大数据重点实验室,北京 1000813. 中国科学院办公厅,北京 1008644. 中国科学院地理科学与资源研究所,资源与环境信息系统国家重点实验室,北京 1001015. 中国科学院大学,北京 1000496. 江苏省地理信息资源开发与利用协同创新中心,南京 210023
基金项目:国家科技基础条件平台建设项目(2005DKA32300);中国科学院特色研究所培育建设服务项目(TSYJS03);中国工程科技知识中心建设项目(CKCEST-2017-3-1);农业科学数据挖掘分析平台研究与建设项目(JBYW-AII-2017-32);中国农业科学院科技创新工程项目(CAAS-ASTIP-2016-AII)
摘    要:推荐系统是帮助互联网用户克服信息过剩的有效工具。在地学数据共享领域,较其他物品的内容属性,地学数据具有更加丰富的时空属性,这也给地学数据推荐带来挑战。针对地学数据的特点,为地学数据共享推荐服务开发了一种动态加权的混合过滤方法。该方法分别采用协同过滤和基于内容过滤算法预测用户对数据的兴趣度,再以训练模型计算最优加权权重,计算最终预测评分。在数据获取阶段,通过用户访问日志数据,采用Jenks Natural Break算法分析用户访问记录获取用户的数据兴趣度。在基于内容过滤部分,通过数据的空间、时间及内容属性计算数据相似度,并以用户历史行为为依据计算用户兴趣。在协同过滤和基于内容过滤中分别采用k-NN算法计算用户对未访问数据的预测评分,并进行加权求和。通过训练集,对理想权重值及用户的共同评价度(co-rating level)进行建模,拟合二者的关系。该模型被应用于混合过滤的权重调整,以获得最优的加权方程。测试结果显示,结合数据时空属性的混合过滤方法的准确度和召回率,较单一的协同过滤或基于内容过滤方法有显著提高。

关 键 词:地理空间数据  推荐系统  混合过滤  科学数据共享  
收稿时间:2017-10-11
修稿时间:2018-02-01

A hybrid personalized data recommendation approach for geoscience data sharing
Mo WANG,Xiaohuan ZHENG,Juanle WANG,Yongqing BAI. A hybrid personalized data recommendation approach for geoscience data sharing[J]. Geographical Research, 2018, 37(4): 814-824. DOI: 10.11821/dlyj201804014
Authors:Mo WANG  Xiaohuan ZHENG  Juanle WANG  Yongqing BAI
Abstract:Recommender systems are effective tools helping Internet users mitigate information overloading. In geoscience data sharing domain, items (datasets) are more informative in terms of spatial and temporal attributes compared to regular item (e.g. books, movies, music). Thus, high-performance recommendation algorithms for geoscience data are more challenging. This study proposed an approach that combines content-based filtering with item-based collaborative filtering using dynamic weights. The approach examines merits of both collaborative filtering in its predictive ability and item content information to mitigating data sparsity and early ratter problem. Users' ratings on items were first derived with their historical visiting time by Jenks Natural Breaks. In the CBF part, spatial, temporal, and thematic information of geoscience datasets were extracted to compute item similarity. Predicted ratings were computed with k-NN method separately using CBF and CF, and then combined with dynamic weights. With training dataset, we attempted to find the best model describing ideal weights and users’ co-rating level. A logarithmic function was identified to be the best model. The model was then applied to tune the weights of CF and CBF on user-item basis with test dataset. Evaluation results showed that the dynamic weighted approach outperformed either solo CF or CBF approach in terms of Precision and Recall.
Keywords:recommender system  geoscience data  hybrid filtering  science data sharing  
本文献已被 CNKI 等数据库收录!
点击此处可从《地理研究》浏览原始摘要信息
点击此处可从《地理研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号