如果子类别与较大的客户重叠,则每个子类别的平均值可能高于整体平均值。
获得直觉的简单示例:
- 设是个人是否购买了 A 类物品的指标。A
- 设是个人是否购买了 B 类物品的指标。B
- 令为购买的商品数量。X=A+B
PersoniiiiiiA101B011
为真的个体为真的个体集合重叠。它们不是不相交的集合。AB
那么而和E[X]≈1.33E[X∣A]=1.5E[X∣B]=1.5
正确的说法是:
P(A)E[X∣A]+P(B)E[X∣B]−P(AB)E[X∣AB]=E[X]
231.5+231.5−132=1.3333
您不能简单地计算因为集合和重叠,表达式双重计算人谁同时购买了物品和!P(A)E[X∣A]+P(B)E[X∣B]ABAB
幻觉/悖论的名称?
我认为这与社交网络中的多数错觉悖论有关。
您可能有一个人与所有人建立联系/朋友。这个人可能是百万分之一,但他将是每个人的个朋友之一。k
同样,这里有 1 个购买类别 A 和 B。但在类别 A 或 B 中,2 个购买者中有 1 个是超级购买者。
极端情况:
让我们创建组乐透彩票。每组包括两张票:一张输票和中奖票。nSii
然后的平均奖金,其中是累积奖金。每个类别的平均值远高于每张票的平均奖金。SiJ2JJn+1
这与销售案例的概念动态相同。每组都包括头奖彩票,就像每个类别 A、B 或 C 都包括重度购买者一样。Si
我的底线是基于不相交集的直觉,样本空间的完整分区不会延续到一系列重叠集。如果您以重叠类别为条件,则每个类别都可能高于平均水平。
如果您在不相交的集合上划分样本空间和条件,则类别必须平均到整体平均值,但对于重叠集合而言并非如此。