我们如何有效地衡量我们的数据决策的影响

数据挖掘 搜索
2021-09-16 15:43:32

抱歉,如果这是一个非常广泛的问题,我想知道 A/B 测试(或其他方法)在有效测量设计决策的影响方面有多有效。

例如,我们可以分析用户交互或点击结果、购买/浏览决策,然后修改/定制呈现给用户的结果。

然后,我们可以通过让 10% 的用户随机使用替代模型来测试这种设计更改的有效性,但是这有多客观呢?

我们如何避免通过模型更改影响用户,例如,我们可以确定“大卫贝克汉姆”的搜索查询可能与足球有关,因此搜索结果会偏向于此,但我们同样可以说他的生活方式同样相关,但这永远不会进入返回的前 10 个结果。

我很好奇这是如何处理的以及如何有效地衡量这一点。

我的想法是,您可能会面临推动您认为正确且用户有义务的模型的危险,这将成为一个自我实现的预言。

我读过一篇关于这个的文章:http: //techcrunch.com/2014/06/29/ethics-in-a-data-driven-world/还有这本书:http ://shop.oreilly.com/ product/0636920028529.do对此进行了讨论,因此引起了我的兴趣。

1个回答

在 A/B 测试中,通过确保将访问者随机分配到网站的版本 A 或版本 B,可以很好地处理偏差。这会创建从同一人群中抽取的独立样本。由于这些组是独立的,并且平均而言,仅在所看到的站点版本上有所不同,因此该测试衡量了设计决策的效果。

稍稍撇开:现在您可能会争辩说,A 组或 B 组在某些人口统计方面可能有所不同。这通常是随机发生的。在某种程度上,这可以通过协变量调整随机化来解决。也可以通过向模型中添加协变量来测试设计决策的效果来解决这个问题。应该注意的是,在统计界仍然有一些关于正确方法的讨论。本质上,A/B 测试是将随机控制试验应用于网站设计。有些人不同意在测试中添加协变量。其他人,例如 Frank Harrel(请参阅回归建模策略)主张在此类模型中使用协变量。

我会提出以下建议:

  • 提前设计研究,以便尽可能多地处理偏差和变异的来源。
  • 让数据自己说话。随着您获得更多数据(例如关于大卫贝克汉姆的搜索),让它支配您对数据应该如何的假设(当样本量变大时,后验如何在贝叶斯分析中支配先验)。
  • 确保您的数据符合模型的假设。