en
×

分享给微信好友或者朋友圈

使用微信“扫一扫”功能。
参考文献 1
RichE. User modeling via stereotypes[J].Cognitive Science, 1979, 3(4): 329⁃354.
参考文献 2
PowellM J D. Approximation theory and methods [M].Cambridge: Cambridge University Press, 1981: 35⁃40.
参考文献 3
SaltonG. Automatic text processing[J].Science, 1970, 168(3929): 335⁃343.
参考文献 4
GoldbergD, NicholsD, OkiB M, et al. Using collaborative filtering to weave an information tapestry[J]. Communications of the ACM, 2013, 35(12): 61⁃70.
参考文献 5
ResnickP, IacovouN, SuchakM, et al. GroupLens: An open architecture for collaborative filtering of netnews[C]//1994 ACM Conference on Computer Supported Cooperative Work. Chapel Hill, North Carolina: ACM, 1994: 175⁃186.
参考文献 6
KonstanJ A, MillerB N, MaltzD, et al.GroupLens: Applying collaborative filtering to usenet news[J].Communications of the ACM, 1997,40(3) : 77⁃87.
参考文献 7
MillerB N, RiedlJ T, KonstanJ A.Experiences with grouplens: Making usenet useful again[C] //Annual Conference on Usenix Winter Technical Conference. Anaheim, California: ACM, 1997: 219⁃231.
参考文献 8
KimK, AhnH. Recommender systems using cluster⁃indexing collaborative filtering and social data analytics[J]. International Journal of Production Research, 2017,55(17): 5037⁃5049.
参考文献 9
NilashiDMehrbakhsh, Mohammad Dalvi Esfahani, Morteza Zamani Roudbaraki, et al. A multi⁃criteria collaborative filtering recommender system using clustering and regression techniques[J]. Social Science Electronic Publishing, 2016,3(5): 24⁃30.
参考文献 10
HillW, SteadL, RosensteinM, et al. Recommending and evaluating choices in a virtual community of use[C]// The SIGCHI Conference on Human Factors in Computing Systems. Denver, Colorado: ACM, 1995: 194⁃201.
参考文献 11
ShardanandU, MaesP. Social information filtering: Algorithms for automating “word of mouth”[C]// The SIGCHI Conference on Human Factors in Computing Systems. Denver, Colorado: ACM, 1995: 210⁃217.
参考文献 12
长沙冉星信息科技有限公司.问卷调查.[EB/OL](2018⁃01⁃02). https://www.wjx.cn/[OL].
参考文献 13
李涛,王建东,叶飞跃,等. 一种基于用户聚类的协同过滤推荐算法[J]. 系统工程与电子技术, 2007, 29(7): 1178⁃1182.
LiTao, WangJiandong, YeFeiyue, et al. Collaborative filtering recommendation algorithm based on clustering basal users[J]. Systems Engineering and Electronics, 2007, 29(7): 1178⁃1182.
参考文献 14
黄传飞. 基于项目的协同过滤算法的改进[D].南昌:江西师范大学, 2015.
HuangChuanfei. An improved item based collaborative filtering algorithm[D]. Nanchang: Jiangxi Normal University, 2015.
参考文献 15
王成,朱志刚,张玉侠,等. 基于用户的协同过滤算法的推荐效率和个性化改进[J]. 小型微型计算机系统, 2016,37(3): 428⁃432.
WangCheng, ZhuZhigang, ZhangYuxia, et al. Improvement in recommendation efficiency and personalized of user⁃based collaborative filtering algorithm[J]. Journal of Chinese Computer System, 2016, 37(3): 428⁃432.
参考文献 16
张晓琳,付英姿,褚培肖.杰卡德相似系数在推荐模型中的应用[J].计算机技术与发展, 2015,25(4): 158⁃161,165.
ZhangXiaolin, FuYingzi, ChuPeixiao. Application of Jaccard similarity coefficient in recommender system[J]. Computer Technology and Development, 2015, 25(4): 158⁃161,165.
参考文献 17
俞立平,潘云涛,武夷山. 科技教育评价中主客观赋权方法比较研究[J]. 科研管理, 2009,30(4): 154⁃161.
YuLiping, PanYuntao, WuYishan. Comparing objective weighting with subjective weighting in sci⁃tech education institute assessment[J]. Science Research Management, 2009, 30(4): 154⁃161.
参考文献 18
JayaramanD, ShaF, GraumanK. Decorrelating semantic visual attributes by resisting the urge to share[C] // IEEE Conference on Computer Vision and Pattern Recognition. Columbus, Ohio: IEEE, 2014: 1629⁃1936.
参考文献 19
HeK, ZhangX, RenS, et al. Deep residual learning for image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition. Columbus, Ohio: IEEE, 2016: 770⁃778.
目录 contents

    摘要

    采用问卷调查与自动抓取相结合的方式,采集用户信息、用户评分等旅游数据,对数据做分层抽样,生成包含用户旅游喜好信息的“智慧旅游”数据集。围绕该数据集,预处理用户评分并执行基于用户聚类的协同过滤算法,以计算目标用户与聚类中心的相似性。结合分层抽样模型生成的旅游喜好信息,输出混合推荐列表。实验结果表明:相比基线,混合分层抽样与协同过滤的推荐模型对评分预测的均方根误差(Root mean square error, RMSE)和平均绝对误差(Mean absolute error,MAE)分别降低11.5%~64.9%和18.8%~47.7%。混合推荐的准确率和召回率相比基线也有较大程度提升,旅游景点推荐效果良好。

    Abstract

    By combining the method of questionnaire survey and automatic crawling, a lot of useful tourist information such as users’ personal information, users’ ratings of tourist attractions and other tourism data are obtained. Based on the crawled tourism data, a hierarchical sampling method is applied in turn to generate the “Smart Travel” dataset which contains the important demographic information. Then a user clustering‑based collaborative filtering algorithm is implemented to compute the semantic similarity between target user and each clustering center after the users’ ratings of tourist attractions in the “Smart Travel” dataset is preprocessed. Finally, a hybrid recommendation list is generated by absorbing the demographic information obtained by the hierarchical sampling model. Experimental results show that compared with the traditional method, two evaluating indicators like the root mean square error (RMSE) and the mean absolute error (MAE) of the presented algorithm reduce 11.5%—64.9% and 18.8%—47.7%, respectively. Meanwhile, compared with the main baselines, the recommendation precision gets a large improvements as well as the recall rate and better recommendation results are obtained ultimately.

  • 引 言

    随着互联网的不断发展,网络上的数据快速增长,人们正逐渐从信息匮乏的时代步入“信息过载”时代,此时,无论是信息消费者(网站用户)还是信息生产者(网站管理者)都面临很大的挑战。基于互联网搜索旅游信息已成为人们在出游前获取信息的最主要渠道之一。然而,伴随大量旅游网站的出现,人们常常被淹没于海量信息的搜索之中,却无法获取有价值的信息。推荐模型(系统)是解决“信息过载”问题,进而提升信息价值的有效方法。据统计,约有四分之三的旅游者在出游前都会搜索并查看旅游评论信息,以更好地规划他们的行程。

    推荐模型可追溯到认知科[1]、近似理[2]以及信息检[3]等领域的扩展研究。在20世纪90年代中期,推荐模型作为一门独立的学科被广泛关注,研究者主要从事具有显式评分的推荐问题研究,而推荐问题则转化为用户对未知物品的评分预测问题:基于用户历史评分,获取对物品的预测评分,进而向用户推荐评分最高的物品。目前,常用的推荐模型分三类:基于内容的推荐、协同过滤推荐和融合过滤。其中,协同过滤推荐的优势主要在于其能处理复杂的非结构化对象,且不需要领域知识就可以发现用户的新兴趣,同时推荐的个性化程度也较高。

    “协同过滤”的概念由Goldberg[4]提出,并应用于Tapestry系统,该系统仅适用于较小用户群,且对用户有较高要求(如用户要显式地给出评价)。作为协同过滤推荐模型的雏形,Tapestry展示了一种新的推荐思想,但它并不适合Internet环境。此后,出现了基于评分的协同过滤推荐模型。Resnick[5]提出基于评分的协同过滤推荐模型GroupLens,向用户推荐新闻和电影。GroupLens的基本思想:分析用户偏好以形成推荐。它采集用户评分,评分值为1~5的整数,分值越大表明用户的偏好度越高。它通过计算用户间的评分相似性,选出相似性较高的一组用户来预测新用户对新物品的偏好。Konstan[6],Miller[7]扩展GroupLens,使其成为一个基于开放式架构的分布式系统。自GroupLens之后,协同过滤理论取得较快发展,国际顶级会议、期刊发表的相关论文也逐年增加:Kim[8]将社会网络分析(Social network analysis,SNA)与聚类技术相结合,通过反射隐藏的、用户社会群体的信息来提高推荐模型的预测精度;Nilashi[9]利用分类与回归树(Classfication and regression tree,CART)和期望最大化(Expectation maximum,EM)等算法提出一种新的推荐方法。目前,大量Web网站也开始应用协同过滤算法向用户推荐个性化信息,如Amazon,Netflix和Last.Fm等,其中,Amazon对协同过滤推荐模型的研究已有十余年,借助推荐模型,Amazon收获了巨大的经济效益。此外,Video Recommender[10]和Ringo[11]也被认为是第一批能够进行自动预测的协同过滤推荐模型。

    本文围绕旅游景点推荐这一热点问题展开研究,采用问卷调查与自动抓取相结合的方式,采集并制作涵盖若干属性维度的、全新的“智慧旅游”数据集。继而对其作分层抽样统计,获取用户的旅游喜好信息。最后,根据用户评分,设计基于用户聚类的协同过滤推荐算法,并融合旅游喜好信息,生成高质量的混合推荐结果。本文模型简单、有效,具备较高实用价值,它对于旅游景点推荐模型的开发与应用具有重要的借鉴意义。

  • 1 旅游景点推荐模型设计

  • 1.1 基本原理

    协同过滤推荐模型指:分析其他用户已评分的物品(本文指旅游景点)来预测目标用户对某类物品的偏好程度(兴趣)。因此,景点z对用户u的效用ef(u, z)取决于景点z对与u评分行为相似的其他用户ui U(用户集合)的相关效用ef(ui, z)。在旅游景点推荐过程中,协同过滤算法先要找出那些与用户u在旅游景点上兴趣相同的用户(即对同一旅游景点评分相似的用户)。然后,将这些用户喜好的景点推荐给用户u。故用户相似性度量是协同过滤算法的关键所在。综上分析,混合分层抽样与协同过滤的旅游景点推荐模型包括用户数据采集、分层抽样、用户聚类以及协同过滤并产生推荐等几大核心部件,系统框架如图1所示。

    图1
                            混合分层抽样与协同过滤的旅游景点推荐模型

    图1 混合分层抽样与协同过滤的旅游景点推荐模型

    Fig.1 Recommendation model of tourist attractions based on hierarchical sampling and collaborative filtering

    首先,设计调查问卷以收集人们的旅游喜好信息,并对其做分层抽样统计;其次,设计抓取规则,在“携程网”自动采集用户对不同旅游景点的评分,并对数据做预处理:用0~5表示用户对旅游景点的满意度(0分最低,5分最高);再次,采用K⁃means聚类算法处理用户数据,产生k个聚类中心,以刻画用户兴趣所属类别;基于协同过滤算法计算目标用户与各聚类中心的语义相似性,预测用户评分,形成预推荐列表LA。最后,混合分层抽样结果输出的预推荐列表LB,生成旅游景点的混合推荐列表“LA + LB”。

  • 1.2 “智慧旅游”数据集建立

    “智慧旅游”数据集的建立分3步:问卷调查、自动抓取和数据汇总。问卷采用“问卷星网[12]制作,主要用于收集用户的旅游喜好信息,问卷中包括:用户性别、地区、年龄、学历、工作性质和月收入等基本信息及“出游季节”“兴趣类别”“出游方式”等旅游喜好信息;自动抓取通过规则抓取“携程网”上的景点图像、用户评分等信息:进入旅游景点用户点评页面,抓取用户对旅游景点的评分及景点图像,制作出涵盖“用户评分”“用户统计信息”“景点图像”等在内的数据集。最后,汇总调查问卷结果与自动抓取的数据,生成“智慧旅游”数据集。

  • 1.3 基于分层抽样模型的用户喜好信息分析

    分层抽样模型按规定比例从不同层中随机抽取样品。它按照一定规则将目标分成num个互不相交的子集。然后,在每个子集中独立抽样。每个子集称为层(E1E2,…,Enum),num个层合起来就是总体分布

    E=i=1numE
    (1)

    第1步:引入目标随机变量,以反映不同人群旅游兴趣的差异,目标随机变量有多个,如“出游季节”、“出游目的地”和“出游方式”等;

    第2步:目标总体分层,把影响因素λ(如性别、地区等)作为分层原则,将旅游人群E根据其属性分为num层,第ii=1,2,…,num)层中有Ei个人;

    第3步:确定各层人数,若总体抽样人数为M,分num层抽样,第i层的人数为Ei,对于第i层的抽样人数:Xi=M *Ei/E,其中i=0,1,2,…,num

    分层抽样模型根据目标总体的特征分布对其作层次化分类,以降低层内差异并增大层间差异,从而提高分类精度,更准确、客观地捕获用户的喜好信息。

  • 1.4 基于K⁃means算法的用户聚类

    聚类分析是把数据对象划分成若干子集的过程。每个子集是一个簇,簇中对象彼此相似,而与其他簇中对象不相似。簇的集合称作一个聚类。常用聚类算法可分为层次聚类和非层次聚类。K⁃means算法属于非层次聚类,它给定一组观测值(a1a2,…,an),每个观测值是一个d维向量,聚类算法将n个观测值划分成t(≤n)个集合S =(S1S2,…,St),以减少集合内的平方和(方差),即

    argminSi=1taSia-μi2=argminSi=1tSiVarSi
    (2)

    式中:μiSi中点的平均值,VarSi表示Si的方差。

    令用户集合是U=(u1u2, …,um)的矩阵,评分景点集合是Z=(z1z2,…,zn)的矩阵,用户⁃景点评分矩阵是GGdij表示用户集合U中第i个用户对景点集合Z中第j个景点的评分,故用户基本信息矩阵为S = (U, Z, G)。执行K⁃means聚类的前提:确定聚类数k和选定初始聚类中心。在收集用户数据时,根据景点性质将60个评分景点划分为k (5≤k≤10)个类别,每种类别各选1个典型用户(共k个)作为初始聚类中心,以完成K⁃means聚类。

    算法1 基于K⁃means算法的用户聚类

    输入: 用户聚类数目k、用户基本信息数据源S=(U, Z, G)、迭代次数iter_num

    输出: 用户聚类中心矩阵D

    1. 从k个类别用户中各选择1个典型用户作为初始聚类中心

    2. repeat

    3. for i = 1: m {

    4. 计算用户ui与聚类中心之间的用户相似性,见式(3)

    5. 计算用户相似性中的最大值

    6. 若相似性最大值出现在第j组,则用户ui属于该类别

    7. }

    8. 同一类别中所有用户的评分均值作为新的聚类中心,更新聚类中心矩阵D

    9. until 各聚类中心不再发生变化或迭代次数iter_num到达

    用户聚类中心Dkn列的矩阵,k代表k个用户聚类中心,n表示景点数。故D中第i行、第j列元素Dij表示第i个聚类中心中所有用户对景点j的评分均值。

    采用式(3)计算用户之间的相似性。即基于皮尔逊相关系数度量用户之间的语义相关性

    sim(x,y)=sSxy(rx,s-rx¯)(ry,s-ry¯)sSxy(rx,s-rx¯)2sSxy(ry,s-ry¯)2
    (3)

    式中:r表示用户评分;rx¯ry¯分别表示用户x和用户y对景点的平均评分;Sxy表示用户xy共同评分的景点集合,即

    Sxy={sS|rx,s&ry,s}
    (4)
  • 1.5 基于用户聚类的协同过滤推荐算法

    聚类算法输出用户聚类中心,即可计算目标用户与各聚类中心的相似性,从而得出目标用户的最近邻居,并对景点进行评分预测,最终输出预推荐列表。令给定目标用户c及最近邻居集合KSc时,对新旅游景点的评分预[13]计算公式为

    rcj=rc¯+iKScsim(c,i)×(rij-ri¯)iKScsim(c,i)
    (5)

    式中:rc¯ri¯表示用户c和用户i对景点的评分均值,sim(c,i)即式(3)计算的用户c与用户i之间的语义相关性。

    算法2 基于用户聚类的协同过滤推荐算法

    输入: 目标用户的景点评分矩阵R,用户聚类中心矩阵D

    输出: 用户预测评分矩阵D′、预推荐列表LA

    1. 根据目标用户的景点评分R和用户聚类中心矩阵D,采用式(3)计算目标用户与各聚类中心的相似性

    2. 假设当前用户为u,初始化使其最近邻集合为空,即KS (u)=∅

    3. 选择聚类中心内与用户u相似性最高的用户,并放入最近邻集合KS(u)中,此时KS (u)≠∅

    4. 重复第3步,直到所有的相关用户都被加入到KS (u)中

    5. 根据KS (u)中用户相似性大小,对集合中所有用户作降序排序,并将排序中的前l项作为用户u的最近邻KS (u)

    6. 根据式(5)计算评分预测矩阵D′,并按照降序排列,取前v项生成预推荐列表LA

    7. 计算模型的RMSE值和MAE值,以评估推荐性能

    2 实验结果及分析

  • 2.1 数据集

    “智慧旅游”数据集中的评论信息采集自“携程网”,共抓取了60个景点、5 000个用户的评分数据,可将60个景点分为8个类别(实验中也进行了验证),分别是:海滨海岛、世界遗产、祈福拜佛、邮轮之旅、古镇游玩、亲子游、养生休闲和民俗体验。随机选取4 000个用户(80%)数据作为训练集,剩余1 000个用户(20%)数据作为测试集。数据集详见网址: https://drive.google.com/drive/mydrive?tdsourcetag=s_pctim_aiomsg。此外,编写调查问卷,基于Web吸引2 170位游客随机完成调查,收集用户基本信息,以完善“智慧旅游”数据集。最后,对评分数据进行预处理:将用户评分中的“很满意”“满意”“一般”“不满意”“很不满意”分别用“5”“4”“3”“2”“1”5个离散值表示。此外,用户的性别、地区、年龄、学历、工作性质和月收入等基本属性(详见表1)也进行相似的数字化处理,以便于后续实验。

    表1 游客的旅游兴趣分层抽样统计表

    Tab.1 Hierarchical sampling statistics of tourist interest%

    类别出游季节兴趣类别出游方式
    春季夏季秋季冬季

    海滨

    海岛

    世界

    遗产

    祈福

    拜佛

    邮轮

    之旅

    古镇

    游玩

    亲子

    养生休闲

    民俗

    体验

    个人

    出游

    家庭或

    组团出游

    性别67.3943.4845.6523.9167.3939.136.5217.3952.1726.0934.7834.7867.3952.17
    64.8131.4866.6718.5272.2251.8520.3725.9361.1120.3738.8944.4437.0481.48
    地区东部55.5633.337.8020.0060.0031.1117.7813.3355.5613.3331.1131.1140.0075.56
    西部68.9043.8452.4533.9843.2120.2159.8437.3643.2133.5856.4562.9055.4057.10
    南部64.7135.2952.9411.7652.9435.2923.5364.7135.2929.4123.5335.2947.0682.35
    北部50.0050.0075.0037.5037.5025.0012.5025.0075.0012.5025.0037.5037.50100.00
    中部77.7859.2670.3737.0485.1948.1514.8125.9370.3714.8151.8548.1570.3766.67
    年龄20岁以下42.1155.2650.0018.4271.0544.7410.5315.7950.0015.7923.6831.5834.2181.58
    20~30岁65.1241.8651.1625.5827.9139.539.3027.9165.126.9841.8674.4260.4758.14
    30~40岁66.6733.3316.6733.3333.3350.0016.6733.330.000.000.0033.3373.6857.10
    40~50岁50.0040.0030.0010.0040.0030.0020.0010.0020.0070.0040.0050.0020.0090.00
    50岁以上33.3333.3366.670.0057.1015.709.0539.6842.6212.5280.4342.620.00100.00
    学历高中及以下83.3327.7850.0016.6755.5638.8927.7827.7861.1127.7827.7855.5633.33100.00
    专科50.0047.2252.7819.4463.8947.228.3311.1136.1111.1116.6727.7833.3380.56
    本科73.9139.1356.5226.0973.9143.4817.3917.3982.6117.3921.7447.8347.8373.91
    硕士及以上56.5243.4839.1339.1369.5752.1713.0430.4360.874.3530.4339.1360.8747.83
    工作性质

    企事业

    单位人员

    50.0028.5775.0014.2987.8135.710.000.0042.860.0028.5714.2935.7178.57
    学生48.6162.5061.1150.0069.4450.0019.4431.9466.6720.8337.5040.2850.0073.61
    自由职业者45.6821.4335.717.1442.8621.4342.8614.2935.7128.5735.7150.0035.7185.71
    月收入2 000元以下68.3345.0060.0026.6780.0043.3313.3330.0065.0020.0031.6733.3353.3370.00
    2 000~3 000元66.6741.6758.330.0058.3325.0033.3316.6733.3316.6741.6758.3325.0083.33
    3 000~4 000元70.0030.0080.0030.0070.0060.000.0020.0050.000.0020.0030.0040.0090.00
    4 000~5 000元40.0080.0020.000.0060.0040.0040.0020.0060.000.000.0040.0020.00100.00
    5 000元以上38.4630.7753.8561.5484.6230.7730.7715.3869.2323.0830.7738.4669.2361.54

    注:因调查问卷中各旅游兴趣选项为多选题,所以表1中结果的百分比之和大于100%。

  • 2.2 分层抽样结果分析

    采用1.3节的分层抽样模型对2 170位游客的调查答卷进行统计分析:从游客的性别、地区、年龄、学历、工作性质和月收入等方面对游客旅游兴趣进行分层抽样,各用户属性中随机抽出1 000名游客作为抽样代表,得到游客旅游兴趣的分层抽样统计表,如表1所示(用户偏好最大值用黑体加下划线给出),同时根据表中结果生成预推荐列表LB

    由表1可以发现很多有趣的结论,这些结论与人们的客观认知较吻合:

    (1) 大部分受访人群更偏爱于春、秋季出行,这应该缘于中国大部分地区在春、秋两季的风景非常吸引人;

    (2) 大部分人群更注重于“家庭或组团出游”,这源于中国人强烈的家庭观念,即以家庭为单位出行,其乐融融;

    (3) 中老年人更偏爱于“养生休闲”类景点,这类景点对个人体力没有过高要求,即休闲、旅游两不误,非常适合中老年人;

    (4) 学生团体更愿意夏季出游,因为,中国的7,8月份是暑假,故各类围绕大、中、小学生的旅游活动、暑期项目非常普遍;

    (5) 中、东部地区游客更喜欢“海滨海岛”,南方地区游客更青睐“邮轮之旅”,西部地区游客乐于“民俗体验”,而北方游客则倾向于“古镇游玩”,这与各地区游客的生活习惯、地理环境等都密不可分;

    (6) 男性受访者倾向于“个人出游”,而女性受访者则更喜欢“家庭或组团出游”。

  • 2.3 聚类实验结果分析

    用户聚类是本文模型的核心,故需先评判聚类算法对推荐性能的影响。人们常通过预测用户对被推荐物品的评分来评判推荐性能。均方根误差(Root mean square error,RMSE)、平均绝对误差(Mean absolute error,MAE)是目前应用最广泛的评判评分精度的指标。本文利用RMSE,MAE对推荐模型作评测。若给定测试数据集T、用户⁃景点组合(u, z)、用户真实评分ruz及推荐模型的预测评分rˆuz。预测评分和真实评分之间的RMSE和MAE分别为

    RMSE=1Tu,zTrˆuz-ruz2
    (6)
    MAE=1Tu,zTrˆuz-ruz
    (7)

    由式(6,7)可知:RMSE,MAE分别计算预测评分和真实评分之间的均方根误差、平均绝对误差。RMSE、MAE值越小,推荐性能越好。实验时把60个旅游景点划分成k(5≤k≤10)类,然后分别执行K⁃means聚类、层次聚类和模糊聚类等多种算法。接着,结合协同过滤算法完成旅游景点推荐,计算各算法在选取不同k值时所获取的RMSE和MAE值,实验结果如图2所示。

    图2
                            各聚类算法在选取不同聚类数时的RMSE和MAE值比较

    图2 各聚类算法在选取不同聚类数时的RMSE和MAE值比较

    Fig.2 RMSE and MAE values of each cluster algorithm by setting different clustering numbers

    由图2可知:RMSE和MAE的变化趋势非常相似,这表明RMSE,MAE的评判本质很接近,它们可以同时使用,以综合评判推荐性能。然而,由于惩罚力度更大,RMSE结果的震荡幅度相对也更大;显然,K⁃means算法的性能优于其他两类算法。综合RMSE和MAE值,当聚类数目k=8时,K⁃means算法的推荐效果最好(这与人工设置吻合)。故选取K⁃means算法并设置聚类数k=8完成后续实验。

  • 2.4 预测评分实验结果分析

    本文选取基于模糊聚类的协同过滤算法、基于层次聚类的协同过滤算法实验,同时与基于用户的协同过滤(User⁃based collaborative filtering,UBCF)算[14]、基于项目的协同过滤(Item⁃based collaborative filtering,IBCF)算[15]以及基于杰卡德相似系数的推荐算法(LBCF[16]等基线进行RMSE,MAE值比较,其中最近邻居值l=10。实验结果如图3所示。

    图3
                            不同算法的RMSE和MAE值

    图3 不同算法的RMSE和MAE值

    Fig.3 RMSE and MAE values of different algorithms

    由图3可知:本文算法的RMSE值与UBCF,IBCF和LBCF相比分别降低了61.0%,64.9%和59.4%,而与模糊聚类和层次聚类两算法相比分别降低11.5%和47.3%;其次,本文算法的MAE值与UBCF,IBCF和LBCF相比分别降低47.7 %,34.1%和28.3%,与模糊聚类和层次聚类两算法相比也分别降低18.8%和37.9 %。这表明:本文提出的协同过滤推荐算法能在一定程度上提高评分预测的精度,这有利于更好地生成旅游景点推荐列表,进而准确拟合用户的旅游偏好(兴趣)。主要原因分析:(1)“智慧旅游”数据集中良好的景点分类机制:8个类别、60个景点,聚类算法实验中也较好地验证了这一机制;(2)合理地选择聚类数(8个)及初始聚类中心(典型用户),并完成基于K⁃means的用户聚类。在聚类结果中,类内相似度较高,而类之间相似度较低;(3)皮尔逊相关系数(式(3))能较好地刻划用户之间的语义相关性。

    2.5 混合推荐结果分析

    1.3节提出应用分层抽样模型获取用户的旅游喜好信息,将该算法命名为Our_HS。根据专家经验及交叉验证,设置各用户属性指标的相对重要性,即利用主观赋权评价[17]对分层抽样结果设定权重。其中性别:5.1%;地区:13.75%;年龄:19.44%;学历:13.75%;工作性质:10.91%;月收入:37.06%,各项之和为100%,以建立Our_HS。此外,1.4节、1.5节提出基于用户聚类的协同过滤算法,该算法命名为Our_CF。由分层抽样结果可知(表1),用户属性不同,其旅游兴趣会有较大差异,而这些兴趣是提升推荐性能的重要依据。因此,本节混合协同过滤算法(Our_CF)输出的预推荐列表LA与分层抽样模型(Our_HS)输出的预推荐列表LB,生成混合推荐列表,该算法命名为Our_Mixed。

    准确率(Precision)和召回率(Recall)这两个指标常被用来全面地评测推荐性能。而要计算这两个指标,先要确定被推荐的景点属于表2中的哪种情况。在表2中,“True⁃positive(tp)”表示被推荐且用户喜好的景点;“False⁃positive(fp)”表示被推荐用户却不喜好的景点;“False⁃negative(fn)”表示未被推荐且用户喜好的景点;“True⁃negative(tn)”表示未被推荐且用户不喜好的景点。

    表2 被推荐景点的分类情况

    Tab.2 Classification results of each recommended item

    类别被推荐未被推荐
    用户喜好True⁃positive (tp)False⁃negative (fn)
    用户不喜好False⁃positive (fp)True⁃negative (tn)

    基于表2的定义,可得到准确率和召回率的计算公式为

    Precision=#tp#tp+#fp
    (8)
    Recall=#tp#tp+#fn
    (9)

    式中: #tp表示被推荐且用户喜好的景点总数;#fp表示被推荐且用户不喜好的景点总数;#fn表示未被推荐且用户喜好的景点总数。假设给用户推荐N′个旅游景点,本节比较IBCF,UBCF,LBCF和Our_CF(协同过滤算法)、Our_HS(分层抽样模型)、模糊聚类、层次聚类以及Our_Mixed(混合推荐)等算法的准确率与召回率,并引入AP指标综合度量各算法优劣,即有

    AP=w=1N'indexN'
    (10)

    式中: index表示准确率/召回率值,N′=10。具体实验结果如表3和表4所示,每行最优值用黑体标出。

    表3 各算法在不同N′下的Precision值

    Tab.3 Precision values of different algorithms under different N′ %

    N′IBCFUBCFLBCF模糊聚类层次聚类Our_CFOur_HSOur_Mixed
    11.89610.0924.2654.5344.3225.8285.3316.687
    21.8968.0286.3986.9186.7648.2438.1679.531
    32.5047.6456.3197.2567.0138.3217.8119.425
    42.7256.7666.7547.4577.1968.6468.62210.005
    52.6556.3306.4457.5037.2768.6968.3849.593
    62.8446.0406.8727.3697.2088.4178.77310.162
    72.9115.7017.1147.8537.5649.0539.08210.485
    82.7845.4477.3008.0357.8369.2649.01210.021
    92.7915.0977.2337.8327.5458.8488.5129.977
    102.7014.9547.3238.1417.6489.2909.08010.897
    AP2.5716.6106.6027.2907.0378.4618.2779.678

    表4 各算法在不同N′下的Recall值

    Tab.4 Recall values of different algorithms under different N′ %

    N′IBCFUBCFLBCF模糊聚类层次聚类Our_CFOur_HSOur_Mixed
    10.1130.6230.2550.2740.2640.4880.3261.040
    20.2260.9900.7640.8430.7920.6640.7961.401
    30.3681.4151.1321.2981.1732.2281.1172.509
    40.6591.6691.6131.7351.6872.5241.8033.151
    50.7921.9521.9242.1062.5042.9872.1083.565
    61.0192.2352.4622.4012.4763.2172.3434.282
    71.2172.4622.9713.0242.9843.7003.1434.828
    81.3302.6883.4803.3073.4973.8433.4315.480
    91.5002.8303.8773.9083.9404.7274.8096.516
    101.6133.0564.3584.6694.3815.5075.5636.811
    AP0.8841.9922.2842.3302.3252.9892.5443.958

    由表3可知:N′=1时,UBCF的准确率最高,即推荐少量旅游景点时,UBCF的效果较好。但推荐更多旅游景点时,由于用户评分的稀疏性越来越高,UBCF的效果逐渐降低。相反,Our_Mixed充分利用用户的旅游喜好信息,当N′≥2时,其推荐性能较优,且准确率稳步提高。Our_Mixed的AP值较同行的次优指标提升(9.678-8.461)/8.461≈14.38%,即在混合推荐时,LALB这两个推荐列表有良好的互补性。基于AP值,所有模型的推荐性能(准确率)降序排列:Our_Mixed > Our_CF > Our_HS >模糊聚类>层次聚类>UBCF > LBCF > IBCF,Our_CF优于Our_HS,这说明:Our_HS、Our_CF算法的性能优于传统方法,而分层抽样模型输出的用户喜好信息在旅游景点推荐中发挥了重要作用。

    由表4可知:当推荐更多旅游景点时,用户之间单一的相似性度量不能完全代表用户喜好,这迫切需要融入用户的旅游喜好信息。混合推荐的效果表现更佳,且召回率稳步提高。Our_Mixed的AP值较同行的次优指标提升(3.958-2.989)/2.544≈32.4%,这进一步说明LALB之间具有良好的互补性。基于AP值,所有模型的推荐性能(召回率)降序排列:Our_Mixed > Our_CF>Our_HS>模糊聚类>层次聚类>LBCF > UBCF > IBCF,Our_HS优于传统算法,这也表明分层抽样模型输出的用户喜好信息在推荐中的重要性。混合分层抽样与协同过滤的旅游景点推荐模型能获取更优的推荐性能,这有助于提升旅游网站的影响力与竞争力。

  • 2.6 算法的时间复杂度

    除上述评测方式外,时间复杂度也是评价推荐模型优劣的一个重要指标。本节分析基于用户聚类的协同过滤算法的时间复杂度,并与传统算法进行比较。

    传统的UBCF算法需要查找用户共同评分的景点,假设用户u1偏好景点z1和景点z2,用户u2偏好景点z1,则算法可能会将景点z2推荐给用户u2。若用户数量多,需逐个查找用户共同评分的景点。若有m个用户、y个景点,该算法时间复杂度为O(m×y),my属于同一数量级且m>y,则该算法的时间复杂度近似是O(m2)。

    传统的IBCF算法中,令用户集合是U=(u1u2, …,um)的矩阵,评分景点集合是Z=(z1z2,…,zn)的矩阵,计算景点相似矩阵时,任意两个景点都要计算其相似性,其时间复杂度为O(mn2)。向目标用户推荐时,先根据景点相似矩阵对景点的n个相似度排序,找出最近邻,故其时间复杂度为O(nlogn),然后通过景点的l个最近邻产生推荐,其时间复杂度是O(mn2)+ O(nlogn)+O(l)。

    而基于用户聚类的协同过滤算法仅需计算用户与各聚类中心的语义相似性。若有k个聚类中心,m个用户,该算法的时间复杂度是O(k×m)。由于k m,它们不属于同一数量级,则该算法的时间复杂度近似是O(m)。从时间复杂度衡量,本文算法优于UBCF及IBCF。

  • 3 结束语

    在旅游网站上,人们常常无法快速地找到感兴趣的旅游信息。因此,本文围绕推荐模型在旅游网站中的应用这一热点问题建立全新的“智慧旅游”数据集。提出混合分层抽样与协同过滤的推荐模型,其中,设计基于用户聚类的协同过滤算法,以计算目标用户与聚类中心的相似性,完成高质量的旅游景点推荐。实验表明:混合分层抽样与协同过滤的旅游景点推荐模型能够有效地提升推荐精度,并降低算法时间复杂度。这对于面向旅游景点的推荐模型的设计及应用都具有重要的借鉴意义。

    未来主要工作:(1)结合景点的图像内容对用户建模,以弥补仅依赖用户评分的聚类方法;(2)运用Relative Attribute模[18]进一步分析用户旅游兴趣的程度变化,更有针对性地推送景点信息;(3)运用深度学习模[19]抽取图像、文本特征,并刻划用户特性,以改善推荐性能。

  • 参考文献

    • 1

      Rich E. User modeling via stereotypes[J].Cognitive Science, 1979, 3(4): 329⁃354.

    • 2

      Powell M J D. Approximation theory and methods [M].Cambridge: Cambridge University Press, 1981: 35⁃40.

    • 3

      Salton G. Automatic text processing[J].Science, 1970, 168(3929): 335⁃343.

    • 4

      Goldberg D, Nichols D, Oki B M, et al. Using collaborative filtering to weave an information tapestry[J]. Communications of the ACM, 2013, 35(12): 61⁃70.

    • 5

      Resnick P, Iacovou N, Suchak M, et al. GroupLens: An open architecture for collaborative filtering of netnews[C]//1994 ACM Conference on Computer Supported Cooperative Work. Chapel Hill, North Carolina: ACM, 1994: 175⁃186.

    • 6

      Konstan J A, Miller B N, Maltz D, et al.GroupLens: Applying collaborative filtering to usenet news[J].Communications of the ACM, 1997,40(3) : 77⁃87.

    • 7

      Miller B N, Riedl J T, Konstan J A.Experiences with grouplens: Making usenet useful again[C] //Annual Conference on Usenix Winter Technical Conference. Anaheim, California: ACM, 1997: 219⁃231.

    • 8

      Kim K, Ahn H. Recommender systems using cluster⁃indexing collaborative filtering and social data analytics[J]. International Journal of Production Research, 2017,55(17): 5037⁃5049.

    • 9

      DMehrbakhsh Nilashi, Mohammad Dalvi Esfahani, Morteza Zamani Roudbaraki, et al. A multi⁃criteria collaborative filtering recommender system using clustering and regression techniques[J]. Social Science Electronic Publishing, 2016,3(5): 24⁃30.

    • 10

      Hill W, Stead L, Rosenstein M, et al. Recommending and evaluating choices in a virtual community of use[C]// The SIGCHI Conference on Human Factors in Computing Systems. Denver, Colorado: ACM, 1995: 194⁃201.

    • 11

      Shardanand U, Maes P. Social information filtering: Algorithms for automating “word of mouth”[C]// The SIGCHI Conference on Human Factors in Computing Systems. Denver, Colorado: ACM, 1995: 210⁃217.

    • 12

      长沙冉星信息科技有限公司.问卷调查.[EB/OL](2018⁃01⁃02). https://www.wjx.cn/[OL].

    • 13

      李涛,王建东,叶飞跃,等. 一种基于用户聚类的协同过滤推荐算法[J]. 系统工程与电子技术, 2007, 29(7): 1178⁃1182.

      Li Tao, Wang Jiandong, Ye Feiyue, et al. Collaborative filtering recommendation algorithm based on clustering basal users[J]. Systems Engineering and Electronics, 2007, 29(7): 1178⁃1182.

    • 14

      黄传飞. 基于项目的协同过滤算法的改进[D].南昌:江西师范大学, 2015.

      Huang Chuanfei. An improved item based collaborative filtering algorithm[D]. Nanchang: Jiangxi Normal University, 2015.

    • 15

      王成,朱志刚,张玉侠,等. 基于用户的协同过滤算法的推荐效率和个性化改进[J]. 小型微型计算机系统, 2016,37(3): 428⁃432.

      Wang Cheng, Zhu Zhigang, Zhang Yuxia, et al. Improvement in recommendation efficiency and personalized of user⁃based collaborative filtering algorithm[J]. Journal of Chinese Computer System, 2016, 37(3): 428⁃432.

    • 16

      张晓琳,付英姿,褚培肖.杰卡德相似系数在推荐模型中的应用[J].计算机技术与发展, 2015,25(4): 158⁃161,165.

      Zhang Xiaolin, Fu Yingzi, Chu Peixiao. Application of Jaccard similarity coefficient in recommender system[J]. Computer Technology and Development, 2015, 25(4): 158⁃161,165.

    • 17

      俞立平,潘云涛,武夷山. 科技教育评价中主客观赋权方法比较研究[J]. 科研管理, 2009,30(4): 154⁃161.

      Yu Liping, Pan Yuntao, Wu Yishan. Comparing objective weighting with subjective weighting in sci⁃tech education institute assessment[J]. Science Research Management, 2009, 30(4): 154⁃161.

    • 18

      Jayaraman D, Sha F, Grauman K. Decorrelating semantic visual attributes by resisting the urge to share[C] // IEEE Conference on Computer Vision and Pattern Recognition. Columbus, Ohio: IEEE, 2014: 1629⁃1936.

    • 19

      He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition. Columbus, Ohio: IEEE, 2016: 770⁃778.

李广丽

机 构:华东交通大学信息工程学院, 南昌, 330013

Affiliation:School of Information Engineering, East China Jiaotong University, Nanchang, 330013, China

作者简介:李广丽(1977⁃),女,副教授,硕士生导师,研究方向:跨媒体检索、机器学习,E⁃mail:642908415@qq.com。
朱涛

机 构:华东交通大学信息工程学院, 南昌, 330013

Affiliation:School of Information Engineering, East China Jiaotong University, Nanchang, 330013, China

作者简介:朱涛(1994⁃),男,硕士研究生,研究方向:推荐系统、机器学习。
袁天

机 构:华东交通大学信息工程学院, 南昌, 330013

Affiliation:School of Information Engineering, East China Jiaotong University, Nanchang, 330013, China

作者简介:袁天(1994⁃),男,硕士研究生,研究方向:图像理解、机器学习。
滑瑾

机 构:华东交通大学信息工程学院, 南昌, 330013

Affiliation:School of Information Engineering, East China Jiaotong University, Nanchang, 330013, China

作者简介:滑瑾(1995⁃),男,硕士生研究生,研究方向:推荐系统、机器学习。
张红斌

机 构:

2. 华东交通大学软件学院, 南昌, 330013

3. 武汉大学计算机学院, 武汉, 430072

Affiliation:

2. Software School, East China Jiaotong University, Nanchang, 330013, China

3. Computer School, Wuhan University, Wuhan, 430072, China

作者简介:张红斌(1979⁃),通信作者,男,副教授,博士,硕士生导师,研究方向:图像标注、机器学习;E⁃mail: zha⁃nghongbin@whu.edu.cn。
刘彦东

角 色:中文编辑

Role:Editor

html/sjcjycl/201903020/alternativeImage/14888e56-2e6b-40f6-97e6-0afb2d2ed766-F001.jpg
类别出游季节兴趣类别出游方式
春季夏季秋季冬季

海滨

海岛

世界

遗产

祈福

拜佛

邮轮

之旅

古镇

游玩

亲子

养生休闲

民俗

体验

个人

出游

家庭或

组团出游

性别67.3943.4845.6523.9167.3939.136.5217.3952.1726.0934.7834.7867.3952.17
64.8131.4866.6718.5272.2251.8520.3725.9361.1120.3738.8944.4437.0481.48
地区东部55.5633.337.8020.0060.0031.1117.7813.3355.5613.3331.1131.1140.0075.56
西部68.9043.8452.4533.9843.2120.2159.8437.3643.2133.5856.4562.9055.4057.10
南部64.7135.2952.9411.7652.9435.2923.5364.7135.2929.4123.5335.2947.0682.35
北部50.0050.0075.0037.5037.5025.0012.5025.0075.0012.5025.0037.5037.50100.00
中部77.7859.2670.3737.0485.1948.1514.8125.9370.3714.8151.8548.1570.3766.67
年龄20岁以下42.1155.2650.0018.4271.0544.7410.5315.7950.0015.7923.6831.5834.2181.58
20~30岁65.1241.8651.1625.5827.9139.539.3027.9165.126.9841.8674.4260.4758.14
30~40岁66.6733.3316.6733.3333.3350.0016.6733.330.000.000.0033.3373.6857.10
40~50岁50.0040.0030.0010.0040.0030.0020.0010.0020.0070.0040.0050.0020.0090.00
50岁以上33.3333.3366.670.0057.1015.709.0539.6842.6212.5280.4342.620.00100.00
学历高中及以下83.3327.7850.0016.6755.5638.8927.7827.7861.1127.7827.7855.5633.33100.00
专科50.0047.2252.7819.4463.8947.228.3311.1136.1111.1116.6727.7833.3380.56
本科73.9139.1356.5226.0973.9143.4817.3917.3982.6117.3921.7447.8347.8373.91
硕士及以上56.5243.4839.1339.1369.5752.1713.0430.4360.874.3530.4339.1360.8747.83
工作性质

企事业

单位人员

50.0028.5775.0014.2987.8135.710.000.0042.860.0028.5714.2935.7178.57
学生48.6162.5061.1150.0069.4450.0019.4431.9466.6720.8337.5040.2850.0073.61
自由职业者45.6821.4335.717.1442.8621.4342.8614.2935.7128.5735.7150.0035.7185.71
月收入2 000元以下68.3345.0060.0026.6780.0043.3313.3330.0065.0020.0031.6733.3353.3370.00
2 000~3 000元66.6741.6758.330.0058.3325.0033.3316.6733.3316.6741.6758.3325.0083.33
3 000~4 000元70.0030.0080.0030.0070.0060.000.0020.0050.000.0020.0030.0040.0090.00
4 000~5 000元40.0080.0020.000.0060.0040.0040.0020.0060.000.000.0040.0020.00100.00
5 000元以上38.4630.7753.8561.5484.6230.7730.7715.3869.2323.0830.7738.4669.2361.54
html/sjcjycl/201903020/alternativeImage/14888e56-2e6b-40f6-97e6-0afb2d2ed766-F002.jpg
html/sjcjycl/201903020/alternativeImage/14888e56-2e6b-40f6-97e6-0afb2d2ed766-F003.jpg
类别被推荐未被推荐
用户喜好True⁃positive (tp)False⁃negative (fn)
用户不喜好False⁃positive (fp)True⁃negative (tn)
N′IBCFUBCFLBCF模糊聚类层次聚类Our_CFOur_HSOur_Mixed
11.89610.0924.2654.5344.3225.8285.3316.687
21.8968.0286.3986.9186.7648.2438.1679.531
32.5047.6456.3197.2567.0138.3217.8119.425
42.7256.7666.7547.4577.1968.6468.62210.005
52.6556.3306.4457.5037.2768.6968.3849.593
62.8446.0406.8727.3697.2088.4178.77310.162
72.9115.7017.1147.8537.5649.0539.08210.485
82.7845.4477.3008.0357.8369.2649.01210.021
92.7915.0977.2337.8327.5458.8488.5129.977
102.7014.9547.3238.1417.6489.2909.08010.897
AP2.5716.6106.6027.2907.0378.4618.2779.678
N′IBCFUBCFLBCF模糊聚类层次聚类Our_CFOur_HSOur_Mixed
10.1130.6230.2550.2740.2640.4880.3261.040
20.2260.9900.7640.8430.7920.6640.7961.401
30.3681.4151.1321.2981.1732.2281.1172.509
40.6591.6691.6131.7351.6872.5241.8033.151
50.7921.9521.9242.1062.5042.9872.1083.565
61.0192.2352.4622.4012.4763.2172.3434.282
71.2172.4622.9713.0242.9843.7003.1434.828
81.3302.6883.4803.3073.4973.8433.4315.480
91.5002.8303.8773.9083.9404.7274.8096.516
101.6133.0564.3584.6694.3815.5075.5636.811
AP0.8841.9922.2842.3302.3252.9892.5443.958
html/sjcjycl/201903020/alternativeImage/14888e56-2e6b-40f6-97e6-0afb2d2ed766-F006.jpg
html/sjcjycl/201903020/alternativeImage/14888e56-2e6b-40f6-97e6-0afb2d2ed766-F005.jpg
html/sjcjycl/201903020/alternativeImage/14888e56-2e6b-40f6-97e6-0afb2d2ed766-F004.jpg
html/sjcjycl/201903020/alternativeImage/14888e56-2e6b-40f6-97e6-0afb2d2ed766-F008.jpg
html/sjcjycl/201903020/alternativeImage/14888e56-2e6b-40f6-97e6-0afb2d2ed766-F007.jpg

图1 混合分层抽样与协同过滤的旅游景点推荐模型

Fig.1 Recommendation model of tourist attractions based on hierarchical sampling and collaborative filtering

表1 游客的旅游兴趣分层抽样统计表

Tab.1 Hierarchical sampling statistics of tourist interest%

图2 各聚类算法在选取不同聚类数时的RMSE和MAE值比较

Fig.2 RMSE and MAE values of each cluster algorithm by setting different clustering numbers

图3 不同算法的RMSE和MAE值

Fig.3 RMSE and MAE values of different algorithms

表2 被推荐景点的分类情况

Tab.2 Classification results of each recommended item

表3 各算法在不同N′下的Precision值

Tab.3 Precision values of different algorithms under different N′ %

表4 各算法在不同N′下的Recall值

Tab.4 Recall values of different algorithms under different N′ %

image /

无注解

因调查问卷中各旅游兴趣选项为多选题,所以表1中结果的百分比之和大于100%。

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

  • 参考文献

    • 1

      Rich E. User modeling via stereotypes[J].Cognitive Science, 1979, 3(4): 329⁃354.

    • 2

      Powell M J D. Approximation theory and methods [M].Cambridge: Cambridge University Press, 1981: 35⁃40.

    • 3

      Salton G. Automatic text processing[J].Science, 1970, 168(3929): 335⁃343.

    • 4

      Goldberg D, Nichols D, Oki B M, et al. Using collaborative filtering to weave an information tapestry[J]. Communications of the ACM, 2013, 35(12): 61⁃70.

    • 5

      Resnick P, Iacovou N, Suchak M, et al. GroupLens: An open architecture for collaborative filtering of netnews[C]//1994 ACM Conference on Computer Supported Cooperative Work. Chapel Hill, North Carolina: ACM, 1994: 175⁃186.

    • 6

      Konstan J A, Miller B N, Maltz D, et al.GroupLens: Applying collaborative filtering to usenet news[J].Communications of the ACM, 1997,40(3) : 77⁃87.

    • 7

      Miller B N, Riedl J T, Konstan J A.Experiences with grouplens: Making usenet useful again[C] //Annual Conference on Usenix Winter Technical Conference. Anaheim, California: ACM, 1997: 219⁃231.

    • 8

      Kim K, Ahn H. Recommender systems using cluster⁃indexing collaborative filtering and social data analytics[J]. International Journal of Production Research, 2017,55(17): 5037⁃5049.

    • 9

      DMehrbakhsh Nilashi, Mohammad Dalvi Esfahani, Morteza Zamani Roudbaraki, et al. A multi⁃criteria collaborative filtering recommender system using clustering and regression techniques[J]. Social Science Electronic Publishing, 2016,3(5): 24⁃30.

    • 10

      Hill W, Stead L, Rosenstein M, et al. Recommending and evaluating choices in a virtual community of use[C]// The SIGCHI Conference on Human Factors in Computing Systems. Denver, Colorado: ACM, 1995: 194⁃201.

    • 11

      Shardanand U, Maes P. Social information filtering: Algorithms for automating “word of mouth”[C]// The SIGCHI Conference on Human Factors in Computing Systems. Denver, Colorado: ACM, 1995: 210⁃217.

    • 12

      长沙冉星信息科技有限公司.问卷调查.[EB/OL](2018⁃01⁃02). https://www.wjx.cn/[OL].

    • 13

      李涛,王建东,叶飞跃,等. 一种基于用户聚类的协同过滤推荐算法[J]. 系统工程与电子技术, 2007, 29(7): 1178⁃1182.

      Li Tao, Wang Jiandong, Ye Feiyue, et al. Collaborative filtering recommendation algorithm based on clustering basal users[J]. Systems Engineering and Electronics, 2007, 29(7): 1178⁃1182.

    • 14

      黄传飞. 基于项目的协同过滤算法的改进[D].南昌:江西师范大学, 2015.

      Huang Chuanfei. An improved item based collaborative filtering algorithm[D]. Nanchang: Jiangxi Normal University, 2015.

    • 15

      王成,朱志刚,张玉侠,等. 基于用户的协同过滤算法的推荐效率和个性化改进[J]. 小型微型计算机系统, 2016,37(3): 428⁃432.

      Wang Cheng, Zhu Zhigang, Zhang Yuxia, et al. Improvement in recommendation efficiency and personalized of user⁃based collaborative filtering algorithm[J]. Journal of Chinese Computer System, 2016, 37(3): 428⁃432.

    • 16

      张晓琳,付英姿,褚培肖.杰卡德相似系数在推荐模型中的应用[J].计算机技术与发展, 2015,25(4): 158⁃161,165.

      Zhang Xiaolin, Fu Yingzi, Chu Peixiao. Application of Jaccard similarity coefficient in recommender system[J]. Computer Technology and Development, 2015, 25(4): 158⁃161,165.

    • 17

      俞立平,潘云涛,武夷山. 科技教育评价中主客观赋权方法比较研究[J]. 科研管理, 2009,30(4): 154⁃161.

      Yu Liping, Pan Yuntao, Wu Yishan. Comparing objective weighting with subjective weighting in sci⁃tech education institute assessment[J]. Science Research Management, 2009, 30(4): 154⁃161.

    • 18

      Jayaraman D, Sha F, Grauman K. Decorrelating semantic visual attributes by resisting the urge to share[C] // IEEE Conference on Computer Vision and Pattern Recognition. Columbus, Ohio: IEEE, 2014: 1629⁃1936.

    • 19

      He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition. Columbus, Ohio: IEEE, 2016: 770⁃778.