文集 | 推荐系统准确度衡量方案——引入权重概念

2018-05-18 | 用户体验,文集,精选

 

UXPA中国2018行业文集征稿正在进行中

点击查看《 行业文集征稿启事 》

 

2017年学术论文欣赏

 

本文段落精选

 

 

 

个性化推荐系统通过建立用户与产品之间的二元关系 ,利用用户已有的选择过程或相似性关系挖掘每个用户潜在感兴趣的对象进行个性化推荐 ,其本质就是信息过滤。

 

召回率是指用户喜欢的所有新闻类型中正确地出现在后台画像系统的比例

 

召回率和排序准确率的计算过程中需要考虑的,不同排序新闻类型的召回成败和排序正误,对我们画像准确度的影响程度不同。

 

权重赋值的基本要求:用户偏好程度排序越高的新闻类型拥有越高的权重,从而对用户画像准确率的影响越大。

 

...

 

 

推荐系统准确度衡量方案

--     引入权重概念

李 成,冯青青

优视科技(中国)有限公司

 

摘 要

个性化推荐系统应用越来越广泛,推荐系统的好坏直接影响到推荐的质量。对推荐系统的实验方法有:离线实验和A/B测试,而用户调查作为一种可以反应用户主观感知的调查方法却常常被忽略。本研究通过使用调查法并且引入权重的概念,来改进召回率以及排序准确率的算法,有效的考虑到用户偏好顺序对于推荐系统的影响。认为排序靠前的兴趣在计算召回率以及排序准确率的时候具有更大的权重,更符合用户的心理模型。提高了用户画像衡量的准确率。本文通过模拟数据以及真实数据介绍引入权重的问卷调查衡量画像准确度的方法,同时对新的方案的有效性以及稳定性进行评估,最后使用带权重的问卷调查法来评估我司当前推荐系统模型A,B,C在排序准确率以及召回率上的表现。

 

关键字 :用户画像,推荐系统准确度衡量,个性化推荐系统

 

1. 研究背景

1.1个性化推荐系统

 

个性化推荐系统在互联网中应用越来越广泛,例如,购物推荐、商务推荐、娱乐推荐、学习推荐、生活推荐、决策支持、新闻推荐等。推荐方法的创新性、实用性、实时性、简单性也越来越强。个性化推荐系统通过建立用户与产品之间的二元关系 ,利用用户已有的选择过程或相似性关系挖掘每个用户潜在感兴趣的对象进行个性化推荐 ,其本质就是信息过滤[1-3]。在内容分发平台中,互联网给用户带来了大量的信息,满足了用户在信息时代对信息的需求,也使得用户在面对大量信息时无法从中获得对自己真正有用的那部分信息,对信息的使用效率反而降低了。而新闻聚合平台(今日头条,UC 头条等)通过个性化推荐系统,可以很好的解决了用户信息过载的问题[4],提升用户信息获取和使用效率。基于用户在新闻聚合平台的历史和当前消费数据,利用算法进行用户画像;通过用户画像中的用户内容偏好和当前内容库中存在内容进行新闻推荐。这种个性化推荐的方法实现了最大程度地“理解”用户的兴趣,结合兴趣为其推荐相关资讯。作为一种新型的新闻阅读方式,新闻聚合平台已经在逐步颠覆传统的新浪、腾讯、网易、搜狐等新闻媒体,而是以一种“算法推荐+内容聚合”方式呈现给用户,引起了整个市场对新闻资讯的关注。

 

1.2 常见的推荐系统实验方法

 

相比于用户主动的信息搜索,个性化推荐的算法好坏对最终效果的影响更大:只有最合理的模型和算法才能推荐最适合每一名用户专属的偏好,实现真正的“千人千面”;才能真正提升产品的用户体验,提高推荐转化率。对于个性化推荐系统的评价,目前最多采用的方案是在线A/B测试和离线实验。离线实验是通过日志系统获得用户行为数据,并按照一定格式生成一个标准的数据集,将数据集按照一定的规则分成训练集和测试集。在训练集上训练用户兴趣模型,在测试集上进行预测。通过事先定义的离线指标评测算法在测试集上的预结果。缺点是无法获取商业关注的指标,如点击率,转化率等。A/B测试通过一定的规则将用户随机分为几组,并对不同组的用户采用不同的算法,然后统计不同组用户的各种不同的测评指标,比较不同的算法,比如统计不同组用户的点击率,通过点击率比较不同算法的性能。A/B测试的有点是可以公平获得不同算法实际在线时的性能指标,包括商业上关注的指标,A/B测试的缺点是周期比较长,需要进行长期实验才能得到可靠的结果。并且测试时需要严格保证A/B只有一个变量上的差异才可以在得到结果的时候不产生解释上的混淆。而与此同时,一个大型网站或者推荐系统的A/B测试系统的设计也是一项复杂的工程。一项大型网站的架构分为前段和后端,从前端展示给用户的界面到最后端的算法往往经过很多层,这些层往往由不同的团队控制。因此实际情况是A/B测试在实际应用过程中需要通过非常科学实验设计,且成本较高。这两种评价方案更多为纯技术方案,主要有开发人员调试完成。

 

1.3个性化推荐系统的本质与用户调查

 

图1:用户真实状态和用户画像准确度指标的关系

 

个性化推荐系统从本质上“求异”。通过发掘和识别用户个体特质为期提供兴趣更强的服务推荐。在个性化的推荐阶段,算法其实不是研究的主要聚焦点,用户的外在行为表现以及其内在的心理特质和动机蔡莎核心。心理个体行为的内在动因。推荐系统是建立在算法和模型的基础上的,就用户在新闻客户端内的行为而言,用户在新闻应用的行为受到多个因素影响:如用户心智模型,端内新闻质量等。这样带来的问题在于从感知层面角度而言其过程更像一个“黑盒子”(图1)。我们虽然可以通过在线和离线的方案,不断优化推荐系统,更多表现为不同模型之间的相对准确度变化,而无法衡量与“真实状态”之间的绝对准确度。用户调查是推荐系统测评的一个重要工具。但是大部分时候都被忽略。很多离线时没有办法测评的与用户主观感受有关的指标都可以通过用户调查获得。用户“真实状态”的衡量工作需要由用户研究工人员完成。其基本假设在于:问卷数据来自用户主观态度。虽然用户主观态度并不能完全表示用户“真实状态”,但是用户表达自己的心理特征的有效途径。

 

1.4 准确度的评价指标与改进

 

预测准确度则是从推荐系统诞生伊始,所有人都特别关心和重视的问题。特别是在新闻聚合平台的个性化推荐系统,能否准确预测用户对新闻的偏好直接决定了新闻内容的下发策略和最终消费转化情况。关于推荐系统中预测准确度,我们主要关心的两个重点问题是:

a)画像系统是否把用户最喜欢的新闻类型成功计算出来,并且能够出现在头部位置;

b)画像系统对用户新闻类型偏好的排序是否正确。

一般通过召回率和排序准确率两个指标来衡量画像准确度[5-8]。召回率是指用户喜欢的所有新闻类型中正确地出现在后台画像系统的比例;排序准确率是指后台画像系统对用户新闻类型偏好排序与用户主观对新闻类型偏好排序的重合比例(图2)。

 

 

图2:画像准确度衡量的指标

 

在本研究中我们使用问卷调查的方式对后台算法推荐系统进行评估。我们能够通过问卷方式一方面可以从用户主观感受的角度评价推荐系统的准确度;更进一步地,我们可以通过分析对比问卷数据与后台画像,来反映画像系统与真实状态的准确度。同时对问卷调查方法进行改进,引入权重这一概念。权重是指该指标在整体评价中的相对重要程度。更进一步地,在本研究中我们认为,在对召回率和排序准确率的计算过程中需要考虑的不同排序新闻类型的召回成败和排序正误对我们画像准确度的影响程度不同。举例说明:

a.其他情况完全相同的情况下,如果排序靠前的新闻类型(如,Top 3)召回失败比排序靠后的新闻类型(如,Top 10)召回失败,画像召回率数值应该更低;

b.其他情况完全相同的情况下,如果排序靠前的新闻类型顺序错误(如,排名第1和第7顺序调换)比排序靠后的新闻类型排序错误(排名第3和第9顺序调换,虽然同样排序位次错误6),排序准确率数值应该更低。为了更准确地体现不同排序新闻类型对我们画像准确度不同程度的影响,我们会按用户对不同新闻类型的排序对各新闻赋予对应的计算权重。权重赋值的基本要求:用户偏好程度排序越高的新闻类型拥有越高的权重,从而对用户画像准确率的影响越大。

在本研究中的权重方案为按照用户在问卷中对新闻偏好程度排序取倒数,即W=1/O。这种排序方案比较大的优势:a) 排序越高,权重越大:即对于任意i<j,满足Wi>Wj; b)排序靠近头部的权重显著大于尾部的权重,i<<j,满足Wi>>>Wj,如下表所示,TOP5的分类权重累加值接近70%。权重赋值的方案需要进行进一步探索和尝试,找出最合理的权重赋值方案。

权重方案举例如下图3(1/N):

 

计算公式如下图4:

 

*数据处理说明:

a)wxi取值为0/1,0表示用户不喜欢该分类,1表示用户喜欢该分类,M(=)表示用户一共选了M个喜欢的新闻类型;

b)新闻类型计算权重(wwi)暂定方案为对新闻偏好程度排序取倒数,即:wwi= 1/wo1;

c) 新闻类型画像召回(hxi)取值0/1,0表示该分类在后台画像系统没有进入前M,1表示该分类在后台画像系统没有进入前M。

d) 新闻类型画像排序(hoi)取值1,2……N,表示该分类在后台画像系统原始权重值排序。

计算完单个用户的召回率,我们可以进一步计算所有用户的分布情况。

 

 

为了对比召回率和排序准确率的简单算法和加权计算方案哪一个能够更好地反映画像准确度的真实状态,我们通过模拟数据进行分析。

模拟数据结构如下图5:用户1和用户2问卷数据相同,但是他们后台画像出现错误:用户1是排序第3和第5的排序弄反了;用户2是排序第2和第4的顺序弄反了。

图5:模拟数据

 

计算结果如下:

SR1=0.66    WR1=0.81   SO1=0.6    WO1= 0.76;

SR2=0.66    WR2= 0.72   SO1=0.6    WO1= 0.67.

 

我们发现:虽然SR1=SR2, SO1= SO2;但WR1>WR2,WO1> WO2.这是因为用户1出现错误数据的排序(3&5)比用户2(2&4)靠后,因此经过用户1校正后的召回率和排序准确率都较高。该结果表明目前使用权重校正的方案在大方向上具有较好的实用价值。

 

图6&7:

6~8月画像平均召回率保持平稳上升(44%-55%-64%);

其中,画像召回率60%-80%的用户比例明显提升。

 

1.5 模拟数据分析

1.5.1 召回率

 

简单召回率和简单排序准确率是用来描述不考虑排序权重的前提下,计算出来的画像召回准确度。加权召回率是用来描述考虑排序权重的前提下,计算出来的画像召回准确度。召回率的取值范围是[0%,100%],0%表示完全没召回,100%表示全部召回。

 

1.5.2 排序准确率

 

简单排序准确率是描述不考虑排序权重的前提下,计算出来的画像排序准确度。加权排序准确率是用来描述考虑排序权重的前提下,计算出来的画像排序准确度。排序准确率取值范围是[-1,1],-1表示后台画像排序与用户真实偏好排序完全相反,0表示表示后台画像排序完全随机,1表示后台画像排序与用户真实偏好排序完全相同。

当前方案排序准确率采用的是spearman相关系数(加权),在科研和工业应用上是具有一套成熟的显著水平参考表。当数据达到显著时,可以认为该用户排序准确率大于等于参考表中对应数值时,则该用户排序是准确的。这种准确排序是在在统计学上是具有意义的,不是随机产生的。虽然在科研应用中,我们通常采用较为严格的显著水平(如p 取 0.01/0.05),但在工业应用中我们可以适当的放宽我们的标准,认为只要达到边缘显著(p可以取到0.1,甚至再稍微大一些)的用户排序就准确的。

 

 

2. 方法的应用及简要结果

2.1 流程

 

通过问卷调查,调查用户主观的新闻类型偏好以及排序已经客户端使用习惯,然后提取后台画像,引入权重这一概念,评价我司三种A,B,C推荐算法模型的优劣。

 

2.2 数据

表1: 问卷校标之间的相关 1

 

此次研究在XX产品客户端的信息流进行了10h的问卷投放,共回收问卷409份。随后通过问卷系统读取用户UTDTD,从推荐系统后台提取该用户对应的画像数据。删除回收问卷中的无效数据,问卷或后台数据缺失的数据;答题时间过短(<150s或>600s)用户答题不认真/逻辑矛盾的无效数据。最终得到272份问卷和后台画像数据。对比使用MATLAB和spss进行数据分析。

 

2.3 结果

2.3.1问卷效度检验

 

用户调查的优点是可以获得很多提现用户主观感受的指标。缺点是在设计问卷时候常常需要考虑问卷的有效性和稳定性。效度一般指的是问卷的准确性即测验能够反映所要测量特性的程度。其包括两个方面的含义:一是问卷测验的目的;二是问卷对测量目标的测量精确度和真实性。效度是一个具有相对性,连续性,间接性的概念。问卷效度分析是衡量一个问卷题目的有效性的重要指标。在本研究中,我通过问卷内部校标效度之间的关联来检验本次问卷校标效度以及区分效度。如果在问卷内部的,一些常识性问题例如用户的资讯关注度与APP的推荐意愿等成显著的相关,则表明当前的问卷具有合理的校标效度。如果校标之间的相关显著且不过高,则表明各个题目之间具有良好的的本研究对用户的资讯关注度,使用频次,使用历史,推荐符合度以及推荐意愿进行相关分析,发现用户的资讯关注度/使用频次/app使用历史与用户认为的app推荐新闻准确度/用户推荐app的意愿成正相关。具体结果如下表1.结果表明问卷中的数据基本符合假设,相关的显著性水平p < 0.001,且相关系数都属于弱相关(<0.4),表明各个题目的区分效度良好。

 

2.3.2加权方案的稳定性

 

本研究假设即使采用不同的推荐模型,且采用不同的权重计算方案(加权,简单),召回率和排序准确性的结果本身应该具有一致性。本研究对比不同推荐模型在不同计算权重方案下的召回率以及排序准确率的相关性。我们对比各模型内部的召回率和排序准确率(见表2,表3),发现简单和加权计算方案具有高度一致性(r > 0.9),且不同的推荐模型直接的结果也呈具有显著的相关。表明本研究使用的加权计算方案具有高度稳定性。

 

2.3.3 加权方案的敏感性分析

 

由于本公司的推荐系统有不同的推荐模型A,B,C模型。当前存在的问题是无法评估各个推荐系统的差异。本研究使用加权计算方法,对比三种不同推荐模型A,B,C的在召回率和排序准确率上的差异。结果见下图10,11. 加权召回率A/C模型与B模型差异为10%;简单召回率A/C模型与B模型差异为7%。加权排序准确率A/C模型与B模型差异>16%;简单召回率A/C模型与B模型差异为11%。表明加权算法更容易探测模型之间的差异。表明加权算法具有更好的敏感性。

 

 

以上结果表明本次问卷测量的效度良好,且研究使用的加权的计算方法具有良好的稳定性和敏感性。

 

2.3.4 荐系统算法简单结果介绍:

 

使用加权算法,对比不同模型的召回率和排序准确率(见图13,图14)发现:A/C模型明显好于B模型;A模型和C模型没有显著差别。B模型的召回率和排序准确率都显著低于A/C模型。A和C模型差异不明显:A模型召回率略低于C模型,但排序准确率则略好。A/C模型中排序准确达到统计显著性(p = 0.1)的用户占比接近70%;B模型用户占比只有52%。在本次研究中发现A,C的算法综合表现优于B算法。

 

 

 

3. 不足与讨论

 

个性化推荐的结果评价必须考虑用户主体的主观感受。本研究创新性的将权重引入到问卷调查对推荐系统的评测中,优先级较高的类型具有更高的权重值。真实的接近用户心理模型。是对推荐系统评价的一大推进。

我们采用主观问卷数据来表征用户偏好的“真实状态”,用于衡量后台用户画像的绝对准确度。

那么主要的存在问题:

a)问卷数据能否反映用户“真实状态”:用户的“真实状态”是一种类似于真理一样绝对存在但不可能完全获取的,我们只能力争用各种不同的方法去尽可能地去接近。问卷作为用户主观态度偏向的自我评估形式,是其中最为可行的方案之一。

b)问卷数据准确性:任何方法和数据都不可避免存在误差,问卷也不例外。我们在数据采集和处理过程中控制问卷质量,对问卷数据进行合理化检验,筛选有效问卷等方案尽可能减少数据误差。

c)权重取值的合理性:这一点需要进行后续探索,寻找到更优的方案。严谨的科研应用上,权重取值是需要对数据进行分布模拟寻找最合理的取值方案。我们的方案中考虑到目前是在真实工业应用场景,无法完全进行理想的数据模拟。同时,权重取值如果能符合应用场景需求并满足基本假设,我们认为这种权重就具有工业应用的合理性。

d)已有研究发现存在感知可用性、感知易用性、感知个性化、感知多样性、感知惊喜性和感知新颖性等多种影响因素[9]。但是这些是A/B测试以及离线测试无法回答的问题。对这些指标的测度需要使用结构化量表实现。虽然问卷的作答未必是用户真实的想法和感受[1],但是却是一个不可或缺的方案。同时在未来的研究中有必要在评价中引入诸如: 眼动、心率、血压、脑电波、皮肤温度、皮肤电、甚至脑成像等客观性生理指标进行辅助验证以提高结论的效度和信度。

 

 

参考文献

 

[1]  Kitchenham B, Pfleeger S L. Principles of survey research part 4: questionnaire evaluation. SIGSOFT Softw. Eng[J]. Notes, 2002, 27(3): 20-23.

[2] Hill W, Stead L, Rosenstein M, et al. Recommending and evaluating choices in a virtual community of use[C]//Proceedings of the SIGCHI conference on Human factors in computing systems. ACM Press/Addison-Wesley Publishing Co., 1995: 194-201.

[3]  刘建国, 周涛, 汪秉宏. 个性化推荐系统的研究进展[J]. 自然科学进展, 2009, 19(1): 1-15.

[4]  曾春, 邢春晓, 周立柱. 个性化服务技术综述[J]. 软件学报, 2002, 13(10): 1952-1961.

[5]  Billsus D, Pazzani M J. Learning Collaborative Information Filters[C]//Icml. 1998, 98:  46-54.

[6]  Basu C, Hirsh H, Cohen W. Recommendation as classification: Using social and content-based  information in recommendation[C]//Aaai/iaai. 1998: 714-720.

[7]  Sarwar, B., Karypis, G., Konstan, J., & Riedl, J. (2000,October). Analysis of recommendation algorithms for e-commerce. In Proceedings of the 2nd ACM conference on Electronic commerce (pp. 158-167). ACM.

[8] Sarwar B, Karypis G, Konstan J, et al. Application of dimensionality reduction in recommender system-a case study[R]. Minnesota Univ Minneapolis Dept of Computer Science, 2000.

[9] McNee S M, Riedl J, Konstan J A. Being accurate is not enough: how accuracy metrics have hurt recommender systems[C]//CHI'06 extended abstracts on Human factors in computing systems. ACM, 2006: 1097-1101.

 

 

最佳点击量文章查看

 

社交网络服务的用户持续使用意愿的影响因素模型探究

 

裸眼3D手机用户需求洞察

 

身心障碍共乘系统之服务调查与设计

 

民族志研究如何更好的在企业运用

 

数字界面汉子笔划粗细度对识别销量的影响研究

 

儿童设计思维启蒙创造力和创新力培养

 

探索时搜索中结果空间架构可视化研究

 

手游新手阶段中的引导及乐趣设计研究

 

Design with the Early Adapters——关于90后人群的住宅需求研究

 

数读信息爆炸时代的电影评分信任危机——以豆瓣电影平台为例的改良性设计

 

起步型工具产品数驱全流程设计研究  ——以营销推广工具阿里妈妈APP为例

 

基于家庭情感增进式服务设计研究  ——以阿尔兹海默症中国患者家庭为例

 
 

0   喜欢

操作成功!
请登录您的邮箱获取新密码,请尽快修改您的新密码!