如何根据好评、差评和总评的数量来选择产品?

数据挖掘 预测建模 统计数据 可能性 朴素贝叶斯分类器
2022-02-28 00:56:24

让我们假设,对于评论好坏的产品,我几乎没有场景。

P1: 1000 Good, 1 bad
P2: 100 good,  10 bad
P3: 20 Good,  0 bad
P4: 10000 good, 500 bad

基于这些数据,我怎么能从统计学/数学上说从这些数据中选择p_i是最好的?是是Naive Bayes还是别的?

此外,样本数量不一致,那么如何决定选择哪一个呢?

2个回答

例如,使用好评论相对于总评论的频率作为得分,可以这样做:

P1:10001000+1=0.999

P2:100100+10=0.909

P3:2020+0=1

P4:1000010000+500=0.952

所以 P3 似乎更好,其次是 P1。

使用好与坏的相对频率,有:

P1:10001=1000

P2:10010=10

P3:200=

P4:10000500=20

所以 P3 似乎更好,其次是 P1。

P3 确实更好,尽管总评论较少,因为它没有负面评论,这非常重要,如上述分数所示。

注意:如果产品没有评论,那么我们有一个不确定的分数(比如00) 可以分配任何基本值似乎最适合应用程序(例如,可以假设默认情况下产品是好的,因此为 1,或者假设产品是平均的,然后是 0.5 等等..)

PS:可以结合好、坏和总评论做许多变化(例如,使用结合正面/负面/总标签的不同公式计算精确度和召回分数)。

您应该围绕每个产品的平均值创建一个置信区间,然后使用区间的下限来确定最坏情况的结果。具有最高下限的产品是您最好的选择。

确保为每个产品添加 1 个额外的正面和负面评论,这样 P3 将是 21 好和 1 坏。这类似于在产品评论之前添加统一的非信息性。