在固定其他参数并仅更改一个参数的情况下的因果关系与相关性问题

数据挖掘 统计数据 相关性 数据分析
2022-03-14 18:47:00

我有一个玩家玩的游戏。D7 留存率定义为安装我的游戏并在 7 天后玩我的游戏的玩家百分比。

现在我在做分析,结果显示只有 10% 的玩家在第 7 天玩我的游戏。我显着改变了游戏的难度并收集了分析数据。数据显示,现在D7为15%。

我是否可以得出结论,D7 的变化是由难度变化引起的,或者这是相关性不是因果关系的例子之一?以及我如何确定我是否能想到因果关系。

物理学家、心理学家在实验中做过很多这样的事情。固定所有参数变化一个并观察行为变化并得出结论。解决这个问题的正确方法是什么?

1个回答

因果关系的概念有点棘手。您可以(通常)不对此进行测试。你需要对事物的运作方式提出一个基于理论的想法,例如,如果一种商品的价格上涨,需求就会下降。在经验应用中,您需要考虑其他因素会影响需求,这样您就不会忽略数据生成过程的重要方面。

当我阅读您的描述时,您似乎有一个很好的机会来隔离难度变化的因果关系。这似乎是“差异中的差异”(DiD)的经典示例。唯一的问题可能是你改变了所有玩家的难度,所以你需要看看如何处理。

我想到的另一件事是,你基本上看的是生存率(X 天后),这将是“生存分析”的任务。

作为一种(或多或少)天真的方法,我会说您的方法朝着正确的方向发展。但是,请确保您可以控制任何可以控制的内容,例如玩家特征(因为与过去相比,现在可能会有不同的人玩您的游戏)。

所以当你有

y=βX+γd+u

其中是 D7,是您对玩家的了解,是难度(0 难度,1 难度较低),您应该或多或少有一个好主意,将更改为对 y 有什么影响。当你使用 OLS(线性回归)时,系数应该直接给你变化。但请记住,这或多或少是一种幼稚的方法(应该给出“好的”结果)。yXdd=0d=1γ