如何从推荐系统评估中得出结论?

数据挖掘 预测建模 推荐系统 信息检索 评估
2021-09-25 09:42:06

根据我的研究,推荐系统是信息过滤系统的一个子类,旨在预测用户对某个项目的“评分”或“偏好”。并且基本上存在许多类型的推荐系统,例如协同过滤和基于内容的推荐系统。

一个重要方面是,评估对于评估推荐算法的有效性很重要。常用的指标是均方误差和均方根误差,也有其他指标,例如精确率和召回率。

我的问题是在我开发了一个推荐系统之后,在使用这些指标进行评估之后,我怎么能认为我的系统提供了高质量的推荐,或者换句话说,应该是什么阈值或 MSE 或 RMSE 值才能被认为是一个好的推荐系统。

谢谢。欢迎任何建议。

4个回答

我认为,“好”是基于目前的艺术水平。因此,我会查看来自行业领导者的受人尊敬的模型,并使用他们报告的准确性作为“好”的基准:因为它归结为可能的。

首先,重要的是要记住 RMSE 与因变量 (DV) 具有相同的单位。这意味着没有绝对的好坏阈值。

但是,您可以根据您的 DV 定义它。对于范围从 0 到 1000 的数据,0.7 的 RMSE 很小,但如果范围从 0 到 1,则不再那么小了。然而,虽然 RMSE 越小越好,但您可以通过了解您的研究领域对您的 DV 的期望,对 RMSE 水平做出理论上的主张。请记住,您始终可以标准化 RMSE。

附加信息

常用的决策支持准确度指标是逆转率、加权误差、接收器操作特征 (ROC) 和精确召回曲线 (PRC)、精确度、召回率和 F-measure。这些指标帮助用户从可用项目集中选择质量非常高的项目。

度量将预测过程视为区分好的项目和不好的项目的二元操作。在对某些特定算法的性能进行综合评估时, ROC 曲线非常成功。

精度是与用户实际相关的推荐项目的比例,而召回率可以定义为也是推荐项目集的一部分的相关项目的比例。它们被计算为 -

精度 (P) = 正确推荐项目 / 总推荐项目

召回 (R) = 正确推荐的物品 / 有用的推荐物品总数

下面定义的 F-measure有助于将精度和召回率简化为单个指标。结果值使算法之间和跨数据集的比较非常简单明了。

F 测量 = 2PR / P + R

覆盖率与推荐系统可以提供预测的项目和用户的百分比有关。如果没有用户或很少有用户对某个项目进行评分,则几乎不可能做出预测。可以通过定义小的邻域大小来减少覆盖范围。

就这样。希望能帮助到你!

您已经提到了一些指标,我猜它们是有效的,至少从算法的角度来看是这样。但是,我认为很多初始验证确实必须手动完成。

我正在研究一个类似的问题,我们正在为一个非常新的领域开发模型。我们还有一个额外的问题是没有很多标记数据。我们通过与主题专家进行大量会议和审查来验证我们的结果,并且我们还在考虑获得众包标签作为验证手段的几种选择。

有许多关于评估推荐系统的论文。参见,例如:

  • 评估协同过滤推荐系统
  • 评估推荐系统
  • 评估新用户的推荐行为
  • 从用户的角度评估推荐系统:最新技术的调查
  • 寻找“好的”推荐:推荐系统的比较评估