您好,欢迎来到爱玩科技网。
搜索
您的当前位置:首页基于用户信任的协同推荐算法研究与分析

基于用户信任的协同推荐算法研究与分析

来源:爱玩科技网
2019.2数据通信技术交流| /Tech no logy Discussi on IX基于用户信任的协同推荐算法研究与分析徐吉\"李小波#许浩# (!.宁波大学信息科学与工程学院浙江宁波315211;2.丽水学院工学院浙江丽水323000)摘要:协同过滤算法一般根据用户的评价信息来推测用户的喜好,但受到数据稀疏问题的影响,许多时

候无法得到较为理想的推荐结果;除此之外,一般协同推荐算法忽略了用户兴趣的动态变化;考虑到传统协同 过滤算法存在上述问题,本文进行了研究,并提出了改进后的协同过滤推荐算法。整个算法的具体执行过程如

下所示:第一步是根据用户偏好构建一个兴趣迁移模型,然后依据具体的评分时间对多个项目评分进行有速度

差异的衰减,衰减完成之后得到项目评分矩阵,并将其应用到相似度的计算中;采用这种方式能够有效地解决

用户兴趣变化引起的、推荐结果准确性降低的问题。然后是构建一个合适的用户信任度模型,根据T-采用、 可信度来对用户的信

进行计算。最后将得到的信

时 的相 进行 ,依据其进行最近邻选择与项目评分,并通过实验的方式,证明算法Improvement - CF能够有效提升推荐结果的准确,性。关键词:协同推荐算法;用户兴趣变化;用户信1引言阐述。随着互联网的发展,人们获取信息的方式得到了

面 用了 的具体效果

的 的

的推荐算法⑷,此算法在决方丰富,海量信息在满足需求的同时,也为人们带了一 些困扰,大量信息中的无效信息一方面干扰了人们对

用户的 则, 算法用的贝y .,以 用受正常信息的判断,另一方面也降低了让人们对信息的 处理效率[1]$推荐系统[#,3]则是一种较好的解决方案,

可以通过一定的方式对信息进行处理,然后将用户真

到了一定的 $ 协同过滤算法则需 用用户对

, 后得到一, 这种方式 将用推荐给用户。的推荐算法[5],这也是一种常用正感兴趣的结果推荐给用户,采用这种方式可以提升 用户对需求信息的获取效率。协同过滤算法M —般 户偏好的

用户的 信息推用户的好, 到的,多时候无法得到较为理想的推荐

的推荐算法, 需 获取用户的 好信息,然后对此信息进行处理之后得到用户的在偏好内

结果;除此之外,一般协同推荐算法 略了用户兴趣

, 一 的推荐 推荐给用户$ 此算; 到统协同过滤算法在法 在一定的 足 , 需 对 用户的

, 进行了 , 提 了 进后的协同过滤推 信息进行 , 此对

获取方面也 较大的

的 求 较 , 在荐算法,用以解决 $$在推荐系统中的

较多的算法

是推荐算法, 用推荐算法顾名思义是一种 多种推荐算法

之后 的推荐算法, 融 了 他算法中的优势,

的推荐算法、协同过滤算法、推荐算法等$ 面将对常用的推荐算法进行 使得算法的推荐效果得到了明 的’善。基金项目:浙江省公益技术应用研究项目(2016C33G2071847)29技术交流Tech no logy Discussi on2引入用户兴趣转移及信任模型2. 1用户兴趣转移数据通信2019.2度方 对 的相似度 分析,可以发现A与$、C的相似度基本是一 的。当用户A与B、A与

C的共同评分项目 目分 是15、10时,可以发现A

通常人们的兴趣偏好并不是一成不变的,而是会 随着时间的变化呈现出一定的动态变化特征,所以用 户在不同时期的兴趣点也存在明显的差异性。经过分 析可以发现,与当前时间较为接近的项目评分与用户 当前的兴趣具有更高的相似度,而较为久远的项目评 分的贡献度较小,即不同时期的项目评分对用户的兴 趣贡献度是不同的[6,7] o考虑到这个因素,本课题建 立了一个基于用户类型偏好的兴趣迁移模型,模型

用户对项目的偏好 对项目 不同 度的 , 基于 的评分 对用户 间的相似度 算,并按照同样的方式完成评分测的过。在 兴趣迁移模型 更好分析与用户当前兴趣偏好相的 因素。22用户信任模型与B、C的相似度基本也是一致的。因此在本课题设

的 度模型充分考虑用户的同评分项与非共 同评分项,用这方式 决 的评分相似度算方法的不

-题, 可以到 度更高的推3算法设计3.1入时间因素的用户相似度计算(1)用户兴趣转移模型在构建用户兴趣迁移模型时,还 对评分 时 量化分析,目前在 方 取的思路是:评价

越接近于当前的时间, 对于用户当前的兴趣用户在 用 时的 一 是不同的,到与 较高一 性的 ,这对于 的个性化以 度 出了更高的要\"通常可以用 度 用户到可 的期 .,而不同用户的 度 存在明显的差异性,此时可以利用 的 性特征对立的用户,基于这方式可以 的 性,I更 的 。 的特征 现在主性、 性、 性方。通常可以 分为类型,分别是接 与间接 ,用户A直接 信任$,用户B直接信任C,那么用户B与用户C则 为间接信彳\"对于UCF算 ., 是 用户评分对不同用户的相似性 算,这方式存在一定具有更大的贡献,也就是对应着更大的权重,相反如

与当前时间的差距较大, 明贡献度较小,这体现出一时效的 性特征。很多学对 题进了研究,并出了不同的策略,学 曾东红[7]在

协同过滤算 领域

了较多的研究,并 遗忘曲线设了一种时间权重方,通过验对算的效

了验,验 明这算在性 方面具有明显的-算 式具体 所-的时间权重公

f (\", # 二$#_1$

\"二(1)公式T隔代项目评分时间,并且满条件

f (t,i) = [e_,1],T阴与T””代的是时间差,

即用户应用系统的时间分与最新、最早评分之间的

时间差\"的不 题, 即 对项目 评分的用户 目是较 的, 时 到的用户相似度 具有明显的

有文献[8] 对 的协同过滤算 了改, 出 指时间权重函 高 算的准 性。虽这方式在 性方一定的,但是忽略了用户偏好的动态变化特

征。当用户的历史项目评分与当前的兴趣点 一 时, 项目具有较高的贡献度, 而 时 按照文献 的时间权重方 是不 的。在本文

性特征,在一定度上会 的 性。为了 UCF算法存在的题,可以用评分相似度 与 度,用这方式可以 用户 的’性,而有的 性与定性\"在前的分析 是用了评分 对用户的相似度 算,这种方式有时以 对用户的相似度 算, 通过一个 的说明,假定有三个用户分别是#、$、C,其中#、B

算 到的 对电 反而了研究,涉到的一个重属性就是电类型,基于属 性可以对用户的偏好 描述。通过用户看某种电与#、C的同评分项目目为5,而B、C分别 评分的项目 目是15个与25个, 可以 明#、$ 间具有更高的相似度。 用基于评分的相似的频率 体现出用户 类型电 的喜好 度,艮设有两个电影B、C,其类型分别属于都市电影和乡

村电影,用户A对二 的评分相同, 用户过去的电影观看:可以发现其偏好的是都市类的电影,因

30技术交流| /2019.2数据通信Technology Discussion IX此电影B能够真正体现出用户的偏好,所以其对应的 衰减速度应该更低。根据上述分析可以结合用户对项 目的偏好获得一个时间衰减函数,具体形式如下 所T\"/ (\", # -卅 一1] (2)公式中T代表用户首次评分的时间,t代表当前 的评分时间,!代表首次评分时间与最新评分时间之 间的间隔,[0, 1]代表用户对项目观看频率, \"表T的是时间权重因子,取值范围是(0, 1), — 般需要通过实验来进行确定,如果其值越小,说 项 目评分的衰减速度越, 的其值越 说 项目评 分衰减的更。 上 可以地看到,当时间达到30天时 率基本达到平衡,因此可以认一个 用户 的 。可以 个 电影的观看频率公式表示为公式(3),具体如下所T\"! _ \"(*(1 一 +°g(/0(3) 卩勺=\"#*(1 一,-(z 1) ( $公式中j表示的是电影 数目,N代表用户观看过的所电影,*代表用户观看过的 j 的电影 合,1,与1分 表示电影i与/在的时间区间, 1代表时间间数目。( 2) 度当前对 过 的 一个, 此 进行 出的进 ⑼,其中 度 出现率、 ,

进的 算过如下所示:一 是对评分 行时间衰减的过 , 其公 式如下所示\"\"& & (\", # ⑷ 公式中&代表用户4对项目i的 评分, ! # 时间衰减函数,心表示时间衰减之 的评分值。 度时可以 用过时间衰减之后得到的用户评分,此时得到的 度公式如下所T\"si叫血(u,u)=^iEPuv (Rui-Ru)过分析之最终来进行。具体的计屯叽%-环屯皿(R丁殆2(5)

公式中心与3分别表示用户4、5寸项目,进行 时间衰减后的评分,3、3分别表示两个用户进行时

间衰减之的平均评分。3.2用户直接与间接信任度建模( 1 ) 度目前 度 的 ,出 的 , 如可以 用 式、式 来获取用户的 度[10],其中前是 对用户的 度进行评 来获得 度, 是 实 中以 得到用户的 度 评, 所以的应用具一定的 ,此时可以 用式。 对 度的 进行了的 ,出可以根据当前用户其用户 荐的正确次数来得到 度,通过实验对这

的效果进行了测试[11],结果表 得到的 度具较高的准确。是

依赖于用户间共 评分项的数量,特 是当其数 量较少时,可能会 用户之间的 度,此时 无法得到准确较高的荐结果。也 度 进行 , 出了基可靠度的 [12], 主要 用率与可靠度进行乘, 二乘积作最的 度 结果, 用 式得到的 度值具 更高的合 性和准确,。设的;存一定的缺陷,其没有对用户评 论的项目基数进行分析, 得 荐结果的准确性会受到影响。下 通过一个具体的子进行说,比如有四个用户分别是A, B, C, D,其中A与!评论 的电影数目 90, C、D评论的电影数目19, 用户之间存共评分的电影,具体是 AB16, BC13, BD16。如果用一般的 进行 度的,可以确定用B对A、D的 度是完的,而实际D况却 是这样, 主要是因 忽评项目基数的影响。考虑到 的问,文中进行 和进, 度 中利用了各个用户的评 项目数与用户间的共 评分项目数, 基

出的 度更加准确。另外还对 用率公式进行 进得到T-采用率。 度的具体计算过程如下所T\"1) T -% 用率(Accept)首先假定存 个用户4,,二者评分的项目集合分别表示为6、6, Num仏),Num (6)分别代 表个合中的项目数量,用户 >对个项目j的评分 可以表示 &。如果已知 个用户基于时间的 度 是( 4, 5,此时可以根据厂&与S叽陀(4, 5) 得到4对j的预测评分Rv,具体公式如下所示\"31技术交流Tech no logy Discussi on数据通信2019.2的分析 & 、 V 间的信任度数目可能 多个

1,也是在 P1, P2,…,Pk*+ (&)— & 5+(\"#”)

⑹, 个 能够 过间接信任度的式得到信任度果, 式具有较高的可如果满足阈值条件I '•/(), j) -2$ % #!则

说明此项目满足了用户&的条件,如果没有满足此条 件,说明不采纳此项目。当用户'对&推荐的项目数 目为M,采纳数目为N时,可以将T-采用率公式表

示为如下形式。.C 靠度。假 有多个用户, 其 用户 >、 C、 ?与 @ 是

直接信任的,与A是间接信任关系,用户B与F

也是间接信任关系,如果 T-采用率与可信度指,可以定E的可信度更高。根据这个

⑺能够得*(U, \") =0

到多 时的间接信任度计算 式, 即的最 信任度值 为最终的间接信任度, 其公式如 下所示:/_ 5 (u,\"=049 如(u,”),gu,”),…,&:(#,”)!■2)可信度(Credibility)在对可信度进行分析时还需要考虑到用户之间的 共同评分项目,如果用户之间的共同评分项数目较

多,则说明用户间的可信度更高。假定用户&('对

应的评分项集合是A、I\", &”表示与用户&共同评分 项目最多的用户,其对应的评分项目集合是I”,此 时可以得到&对V的可信度公式,具体如下所示。(11)4基于用户信任的协同推荐算法分析K 3

对 时间的用户相似度计算方根据上述两个过程可以得到T-采用率与可信度 的计算公式,将二者相乘即可得到最终的直接信任度 值,其计算公式如下所示’进行了 述,

用户 了时间 , 能够有对推荐果度成的。才是 也在一定的,即用户间有较的共同评分项, 得相 度 具有明 的D_ 5 (#,\") = .c (#,f) • Cre (u, v)=

*. I 0 I

$ .旦

I

⑼丿(2)间接信任度建的数据 , 用户数据的繁多, 证用户之间能够形成直接的联系,也就直接对其信任度关系进行分析,此时可以采用间 接信任度建 的 式来建立用户之间的信任度关系。 间接信任度关系的建需要考虑到多个 的条件,如用户之间的相 度 可能有多个, 具体与多 两 。1) 耳对 下的信任度计算 进行,假定有两个用户&、v二者的间接信任传递

,此时 直接 定用户之间的信任度关系, 此可以设计一个信任度,将其应用到同过算, 根据信任度 时间的相 度得到 个合 的合 , 此可以得到推荐果,此 的公式如下所示’;(u,”) =yD5(”,”)/&(”,”)+ (1-! s%a+ (u,v)(12)上述公式中的D_T (&, V)、I_T (&, V)分别 表示两个用户&、V的直接信任度 间接信任度,

S%ume (u, v) 表 时间的用户相似度。根据 的分析 的 同过 算 对数据 进行 , 为了有 此 ,出了改进后的协同过 算Improvement-CF, 其详细的过程如下所示:只有一条, 满足条件6 = ( #, 71 , 7,,…,%一1 , %, \",根据先前介绍的传递规则1( 2,可以 直接将用户的间接信任度表示为直接信任度的乘积-

其公式如下所示’&_ 5 (u, v)=D5(u,79) *Dr(71,n2) *\"-*D_ 5(78, ”)(10)是对用户 进行构建,需要先对原始评分 R进行衰减得到用户评分I,然后依据公式(5)对用户间的评分相似度

(1)

2) 多simume (u, ”进行计算。(2) 其次是对用户信任 进行构建,此过程需利用上一步得到的 R'进行计算,具体分为两,女口果在直接相度则直接计算用户的直接信任

32技术交流| /2019.2数据通信Technology Discussion IX达到了预期的效果%度D_T (u, %;如果不存在则需要根据公式(10), (11)对间接信任度I_T (u, v)进行计算。(3) 然后将相似度值(&,')和信任值

D_T (u, % /I_T (u, %进行线性组合并获得一

个综合权重W (u, %,基于此可以得到用户的最近 邻集合N。(4) 接着可以依据上一步得到的N的评价信息 来实现对项目的评分,其公式如下所示。(

+

5.2评价指标推荐算法 果的评价需要 用 的评价 , 例如可以利用平均绝对误差(MAE)指标分析推荐结 果是 到 预 的 度%MAE = !心' *一卩1'

(14)(R' 一R' & + (&,'小、—n+(&,' (13)公式中 N 代表测 集中的 数目, 公式可

以发现MAE实质上就是预测评分与实际评分之间的

公式中化代表的是预测评分值,即用户u对项 目i的评分,)代表用户%完成时间衰减后的评分, Ru、R%分别代表用户u与%时间衰减之后的平均

值, 如果其值 , 则 预测 果 接近于实结果, 推荐结果 到 的精度要%5- 3实验结果评分%(5) 最后可以基于评分预测值获得最终的推荐项 目集_整个算法的具体执行过程即为下图中所示%在不同时间因子a下,推荐MAE值如下图所示:不同时间因子a下MAE值大小0.40.5| 0.60门0.80.901 0.2 0.3| 77.41[77.54\\77A2系列2| 77.5677.49\\77A677.4677.4877.51时间因子a77.3图2上图可知,当a为0.6时,推荐最 %, 实验的方式, 信任图1 Improvement - CF算法执行流程示)图5实验分析5.1实验数据对算法的具体效果进行验证,文中进行了相

度长度为3时,数据的 性已经得到 ,75%; 于0时, 性 14.1%,因此取值信任度 度 3% 信任度权重的 推荐的性,当信任度为0.45时,MAE表现最好,取值0.45%值时间 0.6, 信任 度 3, 信任度参数为0.45,与经典的协同推荐算法比较,发现推荐

的 性 10% , 分

的实验,在进行实验之 需要选择合适的数据集,这里经过分析之后 使用的数据集是 MovieLens,其主要根据用户的历史评价信息来得到推 荐结果,并依据用户的评分得到用户对 的兴趣度,具体评分值处于1-5分范围内,评分越高说明

算法的 性%6结语主要对基于时间和信任度的

算法用户的兴趣度越大%在实验中需要将数据划分 分,分别是训练数据和测试数据,其对应的 分别是80%、20% %用训练数据集进行训练,然后利用测试数据集 进行测 , 最后 合 的评价 来分析算法是进行 , 对 的 以进行 分析, 此 的 用对用户 成的 % 然后对信任度进行 , 并将其 用到 算法中,用这种方式可以减少数据稀疏性问题对推荐结果精度 的影响,从而为用户提供 量的推荐结果%33技术交流Tech no logy Discussi on参考文献[1 ] Apache Spark: Lightning - Fast Cluster Computing [ EB/

OL] .http: //Spark, apache, or-/数据通信2019.2uted Collaborative Filtering Recom - mendea Engine Using

Apache Spak ☆ [ J ] . Procedia Computer Science, 2016, 83: 1000-1006[9 ]金玉,崔 ,孙平,聒生根,王•基于综合[2 ]冷亚军,陆青,梁昌勇.协同过滤推荐技术综述[J].

模式识别与人工智能,2014 , 32 (11): 397 - 408[3 ]王建芳,苗艳玲,韩鹏飞,刘永利.一种基于信任机制

度 的协同过滤算法[j]. 学版), 2018, 55 (3): 477 -482大学学报(自然科[10] Li J, Feng P, Le J. An improved slope one aaolthm for

collaborative filtering [ C ] // Ninth Internationa Confer- encc on Naturgt Compuagon. IEEE, 2013: 1118 - 1123的概率矩阵分解协同过滤推荐算法[J].小型微型计

算机系统,2019 , 40 (1): 31-35[4 ]张嘉新,赵建平,蒋振刚.基于Spark优化的协同过滤

[11 ] Wu S, Liu Q, Wang L, e! al. Contextual operation for rec­

ommender systems [ J ] . IEEE Trans Knowl Date En,

推荐算法研究[J],长春理工大学学报(自然科学 版),2018, 41 (5): 111-115[5 ]吴航,江红.融合潜在社交信任模型的协同过滤推荐

[J] . 0十算机工程与应用,2018, 37 (1): 1-102016, 28: 2000[12] 鹏,王 ,梁•基于信任 矩阵分解的协同过滤

推荐算法[J].计算机工程与应用,2018, 54 (13):

34 -40[6 ] Winlaw M,Hynes M B, Caterini A, et AlgoritmicAcceleration of Parallel ALL for Colla - borative Filtering:

Speeding up Distributed Big Data Recommendation in Spark

作者简介:徐吉,(1993 -),男,浙江宁波人,宁波大学硕士

研究生,主要研究方向:大数据、数据挖掘、机器学习&李小 波,(1969-),男,浙江丽水人,博士学位,丽水学院工学院

[J] . Compute) Science,2015 : 682 - 691[7 ] , , ,刘斌.基于趣贴近度的协同过滤推荐算法[J].计算机工程,

2017, 44 (1): 226 -233教授,主要研究方向:大数据、数据挖掘、生物信息学&许 浩,(1988 -)!男,浙江丽水人,博士学位,丽水学院工学院

[8 ] Panigrahi S, Lenka R K, Stitigragyan A. A Hybrid Distrib­(上接第8页)[EB/OL] ,https://slab. qq. com/news/authority/1708. html2 2 \"倪茂志.一种勒索软件的防范方法和系统:,CN 106096397

讲师,主要研究方向:大数据、数据挖掘'■3 -242 9 ] Al - rimy BAS, Maarof M A, Shaid S ZM. Ransomware

A[P].20162 3 \"龚琪,曹金璇,芦天亮,李丁蓬.基于特征频繁度的勒索软

threat success factors, taxonomy, and countermeasures: a

survey and research directions2/]. Computers & Securi/,2018210] Shaukat S K, Ri/eire V / RansomWall: A layered defense

件检测方法研究[J/OL].计算机应用研究,2018(07):1 -2

22018 -04 -02]. htty ://Ins. cnkinet/kcms/detail/51. 1196.

syseem agaonse ceypeogeaphoc eansomwaee aeacks usong machine learning 2 C ]//Communication Systems & Networks

(COMSNETS) ,2018 10th Internayoncl Conferencc on. HEE,

TP. 20170727. 2119. 076. html2 4 \"张福勇,齐德昱,胡镜林•基于IRP的未知恶意代码检测

方法[/•华南理工大学学报(自然科学版),2011,39©):

15-202 5 \"朱立军.基于动态行为的未知恶意代码识别方法[/•沈

2018:356 -363211 ]Lu T,Zhang L,Wang S,ee al Ransomware detection based onV - detectoe negative selection alaorithm 2 C ]//Security,

阳化工大学学报,2012,26(01) :77-802 6 ]Scaife N,Carter H,Traynor P,e£ al. Cryptolock(and drop /):

Paeen Analysos, and Cyb3en3eocs ( SPAC ) , 2017 Rneenaeoonal Coneenc3on.REEE,2017:531 -536212 \"刘峰宇,解炜.基于签名认证的DLL加载漏洞防御技术研stopping ransomware at/cks on user date] C]//Distributed

Computing Systems ( IRDCS ) , 2016 IREE 36th International 究2/.信息网络安全,2017(11):62 - 66213]

, 华”,王军.恶意流量特征提取综述2J].信Conference on. IREE,2016:303 - 3122 7 ] Kharaz A, Arshad S, Mullinee C, et al UNVEIR: A Larye -

息网络安全,2018(09):1 -9Scale, Automated Approach /i Detecting Ransomware 2 C ] // USENIX Security Symposium. 2016:757 - 772作者简介:徐兵(1993—),男,湖北荆门人,硕士研究生,主要研

究方向为网络与信息安全;刘晓洁(1965—),女,江苏南京人,教

2 8 ] Khm A,Robertson W,Balzaroty D,e\" al Cutting the gordian

knoe: A look undeeehehood oeeansomwaeeaeacks 2 C ] //

授,硕士生导师,主要研究方向为网络信息对抗与保护技术、数

字虚拟资产保护技术;李帅(1992—),男,山西太原人,硕士研究

International Conference on Detection of Intrusions and Malware,and Vulnerabilito AssessmenO Springer, Cham,2015 :

生,主要研究方向为数据存储。■34

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- aiwanbo.com 版权所有 赣ICP备2024042808号-3

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务