数据挖掘 - 您如何计算数据集的密集或稀疏程度？ - 吾爱随笔录

数据挖掘机器学习数据集推荐系统

2021-10-09 07:25:27

我正在深入研究协作过滤。一篇非常有趣的论文是“协作过滤算法的比较研究” http://arxiv.org/pdf/1205.3193.pdf

为了选择应该使用哪种 CF 算法，本文参考了数据集的密度。它没有做的是解释您如何实际计算数据集的密度。

因此，在上述论文的背景下，任何人都可以帮助向我解释我将如何计算数据集的密度吗？该论文通常指的是 1-5% 范围内的密度。

1个回答

它实际上是在第一页上定义的：

... 稀疏程度（观察到的评分与总评分的比率）...

换句话说，用户/项目评分矩阵中不为空的部分。请记住，问题在于大多数用户-项目对没有评分，我们希望对其进行估计。

示例：

假设有三个用户和四个产品。可能的评分数是 $3\times4 = 12$ . 如果每个用户只评价一个产品（无论是哪种产品），密度为 3/12 = 25%。

其它你可能感兴趣的问题