如何处理混杂变量?

机器算法验证 实验设计
2022-02-28 19:11:57

我需要做一个实验。首先让我描述一下目前的情况。我工作的公司是一家电影院。它有一个游戏部分,等待电影的人可以通过玩游戏来打发时间。人们只能使用预付会员卡付款。不幸的是,这个游戏部分没有产生足够的销售额。我们正在努力寻找原因。

我的假设是,如果我们接受现金支付,销售额将会增加。

我的计划是有实验组和对照组。实验组接受现金支付,对照组不接受。两组的销售额在实验前后进行统计。

困难在于我找不到将“现金支付”因素与其他因素分开的方法:

  • 电影院放映的电影好,来的人多,销量也会增加
  • 每个电影院只有一个游戏区,我不能把它分成两个部分(一个接受现金,另一个不接受)
  • 如果几个站点接受现金而其他几个不接受,我认为我不能直接比较结果,因为访问者不同,游戏单元的数量不同

我正在寻找建议来隔离这个“现金支付”变量,或者可能是另一种方法。

3个回答

以下是与上述要点相关的一些建议:

  • 将每日收入作为解释变量怎么样?
    • 您需要做的是形成一个等式,您可以在其中根据许多其他因素预测游戏销售。这些因素将包括您感兴趣的事情,例如他们是否使用预付卡。但是,您还需要包括您不感兴趣但必须调整的因素,例如每日摄入量。显然,如果这部电影是大片,那么游戏销量将会增加。
  • 假设你有 N 个电影院。选择N/2个电影院,放在A组,其余的放在B组。现在让A组为对照组,B组为实验组。如果可能,请交替使用此设置,即让 A 组实验设置几个星期。
  • 如果您可以混合组(以上点),那么这不是问题。即使你不能,你也可以包含一个代表游戏单位数量的变量。

您可能需要的统计技术是多元线性回归(MLR)。本质上,您构建了一个形式为:

Gaming sales = a0 + a1*Prepaid + a2*Takens + a3*<other things>

在哪里

  • a0 , a1 , a2只是数字
  • 预付是 0 或 1
  • Takes是每天的摄入量。

MLR 将允许您计算a0-a2的值。因此,如果a1很大,则表明预付很重要。

比较一下您在两组之间引入现金选项之前和之后的情况如何?假设您将一半的电影院分配给现金选项(治疗),而一半继续使用无现金(控制)。现在,您可以比较引入现金选项后治疗组的销售额如何变化,也可以比较控制组的销售额如何变化。如果现金选择确实有效,那么治疗组的变化将大于对照组的变化。

我记得在 Technion 的统计实验室读过 Ayala Cohen 教授所做的一项有趣的统计分析,该分析以类似的方式评估从以色列主要高速公路上移除广告牌对事故的影响:为了控制在此期间发生变化的其他因素,他们将之前/之后的事故减少与广告牌在整个期间保留在那里的平行高速公路进行了比较。

除了我的实用统计建议之外,我还想提出一个稍微不同的问题:我意识到电影院的目标是最大化收入,当然分析(和策略)可以针对该目标。然而,我想提出一个更广泛、更全面的观点,公司和分析师都应该考虑:整体利益。在这种情况下,我们可以考虑游戏对电影观众的价值。他们对整体体验更满意还是更满意?(这可以通过例如快速问卷来评估)。或者,例如,如果游戏具有教育意义,那么可能对那些玩游戏的人有额外的好处?我记得在美国的几家电影院里,电影开始前都会在屏幕上玩文字游戏。这些可以被认为是有趣和有教育意义的,因此可以增值。实际上,

我想说的是,以宽泛的方式定义“成功”并着眼长远是很有用的。最后,成功还取决于“客户”的健康状况以及“治疗”对社会、文化、环境等的影响。

抱歉,如果这太哲学化了,但我有这么多 MBA 学生将短期财务收益最大化,而思考非金钱问题的人太少了。然而,数据挖掘和统计可以用于更广泛的原因。