您如何计算数据集的密集或稀疏程度?

数据挖掘 机器学习 数据集 推荐系统
2021-10-09 07:25:27

我正在深入研究协作过滤。一篇非常有趣的论文是“协作过滤算法的比较研究” http://arxiv.org/pdf/1205.3193.pdf

为了选择应该使用哪种 CF 算法,本文参考了数据集的密度。它没有做的是解释您如何实际计算数据集的密度。

因此,在上述论文的背景下,任何人都可以帮助向我解释我将如何计算数据集的密度吗?该论文通常指的是 1-5% 范围内的密度。

1个回答

它实际上是在第一页上定义的:

... 稀疏程度(观察到的评分与总评分的比率)...

换句话说,用户/项目评分矩阵中不为空的部分。请记住,问题在于大多数用户-项目对没有评分,我们希望对其进行估计。

示例

假设有三个用户和四个产品。可能的评分数是3×4=12. 如果每个用户只评价一个产品(无论是哪种产品),密度为 3/12 = 25%。