电影镜头的基准

数据挖掘 机器学习 数据集 推荐系统
2021-10-04 19:41:37

我正在寻找一个地方来找到评估公共数据集性能的基准。

在本例中,我对 MovieLens10M 数据集的结果感兴趣。它似乎在文献中被相当频繁地引用,经常使用 RMSE,但我很难确定什么可以被认为是最先进的。

我确实找到了这个站点,但它仅适用于 100K 数据集,而且远非包容性:

http://www.recsyswiki.com/wiki/MovieLens_100k_benchmark_results

1个回答

正如你所说,推荐系统最常见的情况是预测评分。然后使用 RMSE/MAE。对于排序项目列表的结果,使用不同的度量,例如 Prec@K、Rec@K、AUC、NDCG、MRR、ERR。但是,有许多推荐算法都有自己的超参数和特定用例。根据您要实现的目标,您应该使用合适的方法对您的解决方案进行基准测试。最好的来源是出版物,正如您所注意到的,很多时候给出了 ML 数据集的结果。更重要的是对推荐系统进行基准测试,有时最好的预测结果并不像其他方面那么重要,例如新颖性或多样性。

对于最常用的方法,请尝试以下 librec 项目的基准测试结果: http ://www.librec.net/example.html ML-10M 没有结果,只有 ML-1M 用于评级,ML-100K 用于排名。但是您始终可以自己运行选择的算法。还有其他此类项目:http : //www.mymedialite.net/、http: //lenskit.org/

说到推荐系统的评估,这个项目应该提到: https ://github.com/recommenders/rival 它专门用于推荐系统的数据准备(拆分)和评估。它是在上届 RecSys'2014 [1] 上提出的。也看看这个[2]。也有一些基准测试结果。

[1] A. Said 和 A. Belllogín,“RiVal – 在推荐系统评估中促进可重复性的工具包”,第 371–372 页,2014 年。

[2] A. Said 和 A. Belllogín,“比较推荐系统评估:基准推荐框架”,第 129-136 页。