A/B 测试对假设的适用性

数据挖掘 统计数据 预言 测试
2022-02-17 12:19:43

我掩盖了我正在处理的数据,但我认为这应该明白这一点。我正在尝试为以下内容设计测试:

客户出售各种冰棒。他们认为,在非常热的日子里,一种特殊的冰棒比不热的日子卖得更多。我如何证明他是对的还是错的?

我的想法是我可以做一个 A/B 测试,在不热和不热的日子之间分开。对于这些组中的每一个,我可以从当天售出的所有冰棒中找到该冰棒的销售额比例。如果这个比例在炎热的日子里上升,那么我可以做一个统计显着性检验并得出结论。

但我认为必须有其他测试/模型我可以仅根据销售数量来应用,对吗?我可以运行哪些测试,只涉及在热天而不是热天的原始销售计数之类的东西?请注意,我打算将温度用作分类变量,但如果这更有意义,我也可以使其连续。

1个回答

我认为您需要首先仔细考虑您的客户到底想知道什么,因为您可以测试两种不同的东西:

  • 是不是每个顾客在炎热的日子里比在凉爽的日子里更有可能购买指定类型的冰棒?
  • 客户是否可能在炎热的日子里比在凉爽的日子里卖出更多指定类型的冰棒?

对于第一个,您将分析比例;第二,您将分析指定冰棒类型的绝对销售量,实际上您可能会忽略所有其他类型冰棒的销售量。

如果后一个问题是您要分析的问题,我确实认为对特定类型冰棒的销售与温度(均作为连续变量)进行回归分析是一个合理的起点。事实上,您可以从绘制它们并查看图表开始,看看是否有任何趋势(线性、对数、逻辑等)突然出现。我不会立即进行 A/B 测试,因为您没有处理分类变量,并且没有一种自然的方式来转换它。

当然,进行这种转换可能是有意义的,但在这样做时,我建议查看整体销售数据和其他指标,以了解人们认为一天是热还是凉,以试图确定界限。诸如逻辑回归(可能是多项式)之类的东西可能会派上用场,尽管如果数据不够干净,我很容易看到它会给出毫无价值的结果。也许您可以利用聚类算法来识别具有相似销售数据的温度组,并使用它来确定您的类别。您还可以尝试关联外部数据集,例如社区泳池出勤率、冰淇淋销售、用电量(空调)等(如果可用),以进一步了解您对每天的温度等级的分析。(也许这是矫枉过正,但它'


顺便说一句,A/B 测试通常指定一个过程,您可以控制 A 类和 B 类的分配。就像在网页设计中一样,您选择(或编程计算机以选择,可能是随机的)每个访问者获得版本 A 还是版本 B . 你无法选择每天是否热,所以这不是一回事话虽如此,您可能可以使用与适当的 A/B 测试相同的大多数分析方法。