每一位客户的转化率都更高。这可能是偶然的吗?

机器算法验证 可能性 统计学意义
2022-03-28 01:15:35

在银行,客户正在申请贷款,然后客户会获得贷款报价,他们可以选择接受或不接受。这家银行已经运行了 11 周,巧合的是,一位开发人员发现,平均而言,奇数应用程序 ID 每周产生的接受金额高于偶数应用程序 ID。Application-id 只是数据库中的一个递增数字,因此与现实世界无关。没有理由会发生这种情况,所以问题是,这种情况发生的可能性有多大?有人说这可能会发生,因为在奇数/偶数应用程序 ID 上进行拆分并不是纯粹随机的。但这还不够随机吗?

在图像中,您可以看到数据:

  • 第 1 列:周
  • 第 2 列:组(偶数/奇数应用程序 ID)
  • 第 3 栏:申请数量
  • 第 4 列:接受的报价数量
  • 第 5 栏:接受金额的总和
  • 第 6 列:如果接受的数量对于奇数应用程序 ID 更大(它适用于所有 11 周),则为标志
  • 第 7 列:计算奇数应用程序 ID 的接受量大多少。

在此处输入图像描述

4个回答

仅使用您发布的数据,您就可以将其分析为每周进行试验的二项分布。这将给出的 p 值,或大约你也可以做一个配对测试,这会给你一个二项分布,每对 id 都是一个试验。然后对奇数和偶数的总接受量进行 t 检验,但存在潜在分布是否足够正常的问题。2110.05%

当您已经看到数据时,选择要执行的统计测试是有问题的,因为您将定制测试以匹配您已经看到的模式。但是,当你得出结论时,与你在看某件事是否值得进一步研究时,有不同的标准。p 值为,即使它可能是 p-hacking 的结果,也证明了进一步调查的合理性。0.02%

您提供的数据非常概括。您应该更详细地查看数据。例如,创建一个散点图,其中一个轴为贷款日期,另一个轴为贷款大小(或者可能是大小的对数,如果它们分布在多个数量级上),奇数或偶数 id 使用不同的颜色。

您可以使用许多统计检验来回答这样的问题,但最简单的是 2×2 卡方列联检验(此处为示例)。

只需将所有日期中所有接受的具有奇数和偶数 ID 的申请加起来,这样您就有两个数字:调用您的随机变量,其中 0 表示偶数,1 表示奇数。的事前概率(假设奇数/偶数是随机的)是您已经进行了试验,并且您想知道其中 N_{even} 次试验的概率p因此,您想要的分布是二项分布,因此是Nodd,NevenX{0,1}X=0p=0.5N=Nodd+NevenNevenp=0.5XBinomial(N,p)

如果其中适当小,那么你就有问题了。如果不是,那么你可以说这是机会。P(X=1N,p)<xx

从表面上看,您在每种情况下都有 11 个样本,其中 B 大于 A。有 2048 个可能发生的选择 (2^11) - 将选择视为 11 个二进制位可以很容易地可视化(假设 A> 的位为 0 B 和 1 表示 A<B)。只有一种方式 B 总是可以更大 - 位序列 11111111111。但是您没有先验理由认为 B 会更大,因此同样极端的序列 00000000000 也同样有效。这将导致观察到效果的几率为 1024 分之一,非常显着(P~=0.001)

但正如人们所指出的那样,您之所以这么问,是因为您看到了一种极端的模式。因此,也许 1023 家其他银行从未问过。

并且从你的桌子向下看 2/3。“B 更大”对于 533 与 527 似乎是不正确的(对于比率也是不正确的)。所以我们回到了较低的概率,因为这 11 个中的任何一个都可能被“反转”并且与您的数据一样极端。这是另外 22 个同样极端的案例。所以这是 2048 中的 24,在 p=0.01 时不再显着。

然而,底线 - 你是一家新银行,这是一个相当极端的模式。在我看到相互矛盾的数据之前,我相信这是一种真实的效果。我不知道您使用的是哪种编程语言,但我怀疑变量的重用会导致问题(或者不太可能是内存泄漏)

实际比率中提供的信息比仅仅说是否 A>B 提供的信息更多,但这已经足以证明代码 - 任何事情都可能在统计上发生,这不是证据,证据将是找出问题所在编码。