平均值悖论——这叫什么?

机器算法验证 部分 描述性统计 悖论
2022-02-14 18:31:40

我有一个数据集。观察值和变量:103

obs  A   B   C
1    0   0   1
2    0   1   0
3    1   0   1
4    1   1   0
5    1   0   1
6    1   0   0
7    1   1   0
8    0   0   1
9    0   1   1
10   0   1   1

假设每个类别中顾客购买了 ( ) 或没有 ( ) 那里有个,因此这客户平均购买个产品类别。1010A, B, C16101.6

请注意,客户可以购买 A、B 和 C 中的一个以上。

如果我只看那些购买的人A,有客户购买了产品类别,因此个。591.8

B又是9/51.8

C10/6=1.67.

都在1.6.

这似乎很奇怪。我明白了,但需要在下周向营销部门解释这一点,因此需要帮助!

这东西叫什么?

我知道这不是辛普森悖论。对我来说,它在逻辑上类似于蒙蒂霍尔问题和条件概率。

4个回答

如果子类别与较大的客户重叠,则每个子类别的平均值可能高于整体平均值。

获得直觉的简单示例:

  • 是个人是否购买了 A 类物品的指标。A
  • 是个人是否购买了 B 类物品的指标。B
  • 为购买的商品数量。X=A+B

PersonABi10ii01iii11

为真的个体为真的个体集合重叠它们不是不相交的集合。AB

那么E[X]1.33E[XA]=1.5E[XB]=1.5

正确的说法是:

P(A)E[XA]+P(B)E[XB]P(AB)E[XAB]=E[X]

231.5+231.5132=1.3333

您不能简单地计算因为集合重叠,表达式双重计算人谁同时购买了物品P(A)E[XA]+P(B)E[XB]ABAB

幻觉/悖论的名称?

我认为这与社交网络中的多数错觉悖论有关。

您可能有一个人与所有人建立联系/朋友。这个人可能是百万分之一,但他将是每个人的个朋友之一。k

同样,这里有 1 个购买类别 A 和 B。但在类别 A 或 B 中,2 个购买者中有 1 个是超级购买者。

极端情况:

让我们创建组乐透彩票。每组包括两张票:一张输票和中奖票。nSii

然后的平均奖金,其中是累积奖金。每个类别的平均值高于每张票的平均奖金SiJ2JJn+1

这与销售案例的概念动态相同。每组都包括头奖彩票,就像每个类别 A、B 或 C 都包括重度购买者一样。Si

我的底线是基于不相交集的直觉,样本空间的完整分区不会延续到一系列重叠集。如果您以重叠类别为条件,则每个类别都可能高于平均水平。

如果您在不相交的集合上划分样本空间和条件,则类别必须平均到整体平均值,但对于重叠集合而言并非如此。

我会称之为家庭规模悖论或类似的东西

假设,举个简单的例子,每个人都有一个伙伴和一个泊松分布的孩子数量,参数为2

  • 每人的平均子女数为2
  • 每个有孩子的人的平均孩子数为21e22.313
  • 每个人的平均兄弟姐妹群体规模(包括他们的兄弟姐妹和他们自己)将为3

真实的人口统计和调查数字产生不同的数字但模式相似

明显的悖论是个人兄弟姐妹群体的平均规模大于每个家庭的平均子女数;在人口动态稳定的情况下,人们的平均子女往往比父母少

解释是平均值是被父母和家庭还是兄弟姐妹所接受:对大家庭应用了不同的权重。在您的示例中,个人或购买的权重之间存在差异;您的条件平均值被您以特定购买为条件的事实推高了。

其他答案是过度思考正在发生的事情。假设有一种产品和两个客户。一个买了产品(一次),一个没有。平均购买的产品数量为 0.5,但如果仅查看购买该产品的客户,则平均值上升到 1。

这对我来说似乎并不矛盾或违反直觉。购买产品的条件通常会提高购买产品的平均数量。

这不仅仅是变相的“平均值”混淆(例如以前的stackexchange问​​题)吗?您的诱惑似乎是子样本平均值最终应该平均到总体平均值,但这很少发生。

在经典的“平均数”中,有人找到 N 个互斥子集的平均数,然后惊讶于这些值并未平均到总体平均数。这个平均值的唯一方法是如果您的非重叠子集具有相同的大小。否则,您需要采取加权平均。

由于子集重叠,您的问题比这种传统的平均值混淆更复杂,但在我看来,这只是一个带有扭曲的经典错误。对于重叠的子集,更难最终得到与总体平均值平均的子样本平均值。

在您的示例中,由于出现在多个子样本中的用户(因此购买了很多东西)会增加这些平均值。基本上你会多次计算每个大消费者,而只购买一件物品的节俭的人只遇到一次,所以你偏向于更大的价值。这就是为什么您的特定子集具有高于平均值的原因,但我认为这仍然只是“平均值”问题。

您还可以从数据中构建各种其他子集,其中子样本平均值具有不同的值。例如,让我们采用与您的子集有些相似的子集。如果您选择没有购买 A的那部分人,您平均会得到 7/5=1.4 件商品。对于没有购买 B 的子集,您平均还可以获得 1.4 件商品。没有买C的人,平均买了1.5件。这些都低于 1.6 件/客户的人口平均水平。给定正确的数据集和正确的子集集合,您最终可能会得到重叠的子集,其平均值等于总体平均值;但是,这在正常应用中并不常见。

只是我,还是在重复了这么多遍之后,平均这个词现在看起来很奇怪......希望我的回答对您有所帮助,如果我毁了你的平均这个词,我很抱歉!