我注意到 Netflix,我认为它曾经使用五星级等级对内容进行评级,并以相同的等级对未评级的内容给出预测评级,现在只有基本的喜欢/不喜欢按钮。Pandora 和 Spotify 等音乐流媒体服务似乎采用了相同的方法。我的问题是,在生成最佳推荐方面,是什么让二元响应优于李克特型量表?
它是否与算法的性质有关(例如,当可能的响应较少时,分类更准确)?还是这种优势更多地与人类心理有关(用户更容易在喜欢/不喜欢而不是喜欢/喜欢/中立/不喜欢/讨厌之间做出准确选择)?
我注意到 Netflix,我认为它曾经使用五星级等级对内容进行评级,并以相同的等级对未评级的内容给出预测评级,现在只有基本的喜欢/不喜欢按钮。Pandora 和 Spotify 等音乐流媒体服务似乎采用了相同的方法。我的问题是,在生成最佳推荐方面,是什么让二元响应优于李克特型量表?
它是否与算法的性质有关(例如,当可能的响应较少时,分类更准确)?还是这种优势更多地与人类心理有关(用户更容易在喜欢/不喜欢而不是喜欢/喜欢/中立/不喜欢/讨厌之间做出准确选择)?
Business Insider 的这篇文章从业务角度回答了您的问题。
他们提到最初的问题是 Netflix 使用 5 星评级的方式在行业内不是标准的:
负责监督这一转变的 Netflix 的卡梅隆·约翰逊 (Cameron Johnson) 告诉 Business Insider,这一切都源于 Netflix 一直以来对星级评分的使用与互联网其他部分不同的认识,但用户并不清楚这种区别。
并且向用户呈现评级的方式不鼓励他们做出贡献。他们的解决方案是竖起大拇指/竖起大拇指的方法,因为用户更清楚他们正在训练算法:
因此,在寻找替代品时,Netflix 希望确保这一点很清楚。这就是为什么 Netflix 选择“竖起大拇指”的原因,人们普遍认为这意味着你正在训练一个算法来了解你喜欢什么,约翰逊说。
我怀疑还有更多的想法,也许二进制数据只是“足够好”。
来自海量数据集挖掘的这一章对评级与布尔效用矩阵有一些有趣的考虑。
从第 339 页开始:
如果效用矩阵不是布尔值,例如评分 1-5,那么我们可以通过效用值对表示项目配置文件的向量进行加权。通过减去用户的平均值来标准化实用程序是有意义的。
特别是在处理评分矩阵时,需要注意不同的用户可能对评分有不同的理解,因此您很可能会在计算推荐之前对矩阵进行归一化,而对于二进制数据则不需要。