我有一个数据集,其中包含有关客户及其在我们的业务旅程中的行为的大量数据,其中一个行为是他们参加了多少我们的活动,另一个行为是他们是否从我们这里购买。我正在测试这样一个假设,即参加活动会使某人更有可能进行购买。
对于这个问题,我使用了以下假设: H_0:两组之间进行购买的人的百分比没有差异。H_1:参加过活动的人的购买百分比高于没有参加过活动的人。
为了检验这些假设,我制作了一个列联表,如下所示:
| 进行了购买 | 没有购买 | |
|---|---|---|
| 参加了一个活动 | 190 | 1350 |
| 没有参加活动 | 983 | 15588 |
然后使用 scipy.stats 函数 'chi2_contingency()' 进行独立性测试。我认为使用卡方检验或费舍尔精确检验是正确的,但由于样本量很大,所以卡方更合适:
chistat, pvalue, dof, ex = chi2_contingency(cont_df)
print(chistat, pvalue)
然后给出了输出:
(94.39478042474279, 2.5847291047881143e-22)
我认为这表明,当使用 0.05 的显着性水平时,参加活动的组和未参加活动的组之间进行交易的概率之间存在统计学上的显着差异,因此拒绝了原假设。
这是我第一次将假设检验应用于现实世界的问题,因此如果有人能指出我的过程/理解中的任何缺陷,我将不胜感激。我的主要问题在于,参加活动的人可能已经更有可能进行购买,因此这并不一定证明这两个变量之间存在任何因果关系。除此之外,如果有一个控制组,它甚至没有参加活动的选择权,即收到我们发送的宣传活动的电子邮件,岂不是更好。然后使用一组作为知道事件的组和一组不知道事件的组进行测试,看看这两组之间的购买转化率是否存在统计学上的显着差异?