我正在深入研究协作过滤。一篇非常有趣的论文是“协作过滤算法的比较研究” http://arxiv.org/pdf/1205.3193.pdf
为了选择应该使用哪种 CF 算法,本文参考了数据集的密度。它没有做的是解释您如何实际计算数据集的密度。
因此,在上述论文的背景下,任何人都可以帮助向我解释我将如何计算数据集的密度吗?该论文通常指的是 1-5% 范围内的密度。
我正在深入研究协作过滤。一篇非常有趣的论文是“协作过滤算法的比较研究” http://arxiv.org/pdf/1205.3193.pdf
为了选择应该使用哪种 CF 算法,本文参考了数据集的密度。它没有做的是解释您如何实际计算数据集的密度。
因此,在上述论文的背景下,任何人都可以帮助向我解释我将如何计算数据集的密度吗?该论文通常指的是 1-5% 范围内的密度。
它实际上是在第一页上定义的:
... 稀疏程度(观察到的评分与总评分的比率)...
换句话说,用户/项目评分矩阵中不为空的部分。请记住,问题在于大多数用户-项目对没有评分,我们希望对其进行估计。
示例:
假设有三个用户和四个产品。可能的评分数是. 如果每个用户只评价一个产品(无论是哪种产品),密度为 3/12 = 25%。