数据挖掘 - 如何根据好评、差评和总评的数量来选择产品？ - 吾爱随笔录

数据挖掘预测建模统计数据可能性朴素贝叶斯分类器

2022-02-28 00:56:24

让我们假设，对于评论好坏的产品，我几乎没有场景。

P1: 1000 Good, 1 bad
P2: 100 good,  10 bad
P3: 20 Good,  0 bad
P4: 10000 good, 500 bad

基于这些数据，我怎么能从统计学/数学上说从这些数据中选择p_i是最好的？是是Naive Bayes还是别的？

此外，样本数量不一致，那么如何决定选择哪一个呢？

2个回答

例如，使用好评论相对于总评论的频率作为得分，可以这样做：

P1： $\frac{1000}{1000+1} = 0.999$

P2： $\frac{100}{100+10} = 0.909$

P3： $\frac{20}{20+0} = 1$

P4： $\frac{10000}{10000+500} = 0.952$

所以 P3 似乎更好，其次是 P1。

使用好与坏的相对频率，有：

P1： $\frac{1000}{1} = 1000$

P2： $\frac{100}{10} = 10$

P3： $\frac{20}{0} = \infty$

P4： $\frac{10000}{500} = 20$

所以 P3 似乎更好，其次是 P1。

P3 确实更好，尽管总评论较少，因为它没有负面评论，这非常重要，如上述分数所示。

注意：如果产品没有评论，那么我们有一个不确定的分数（比如 $\frac{0}{0}$ ) 可以分配任何基本值似乎最适合应用程序（例如，可以假设默认情况下产品是好的，因此为 1，或者假设产品是平均的，然后是 0.5 等等..）

PS：可以结合好、坏和总评论做许多变化（例如，使用结合正面/负面/总标签的不同公式计算精确度和召回分数）。

您应该围绕每个产品的平均值创建一个置信区间，然后使用区间的下限来确定最坏情况的结果。具有最高下限的产品是您最好的选择。

确保为每个产品添加 1 个额外的正面和负面评论，这样 P3 将是 21 好和 1 坏。这类似于在产品评论之前添加统一的非信息性。

其它你可能感兴趣的问题