我想测试一种新的协同过滤算法。一个典型的用例是根据与特定用户相似的用户的偏好来推荐电影。
研究人员经常使用哪些常见的基准数据集来测试他们的算法?我知道在计算机视觉中人们经常使用 MNIST 或 CIFAR,但我还没有找到用于协同过滤的类似数据集。
我想测试一种新的协同过滤算法。一个典型的用例是根据与特定用户相似的用户的偏好来推荐电影。
研究人员经常使用哪些常见的基准数据集来测试他们的算法?我知道在计算机视觉中人们经常使用 MNIST 或 CIFAR,但我还没有找到用于协同过滤的类似数据集。
显而易见的答案是 Netflix 奖品数据集,对此进行了大量研究,并且大多数 CF 算法在其中都有已知分数。
还有其他可用的数据集通常用作基准:
电影镜头数据集:用于对 CF 算法进行基准测试的 2000 万个评级数据集;
Jester Dataset:一个拥有超过 600 万评分的笑话推荐数据集;
您可以在此链接中找到更多数据集