A/B 测试结果与离线机器学习模型性能相矛盾

数据挖掘 机器学习 测试
2022-02-12 15:06:17

在将机器学习模型投入生产时,这似乎是一个常见问题。

假设我们有一个优化的机器学习模型,它在看不见的测试数据集中提供了不错的性能指标。我们对此非常满意,并决定将模型上线。然后我们使用 A/B 测试来比较使用和不使用新模型的网站性能(即收入、客户参与度等)。不知何故,我们的新模型在 A/B 测试中并不是明显的赢家,甚至不是明显的输家。我们如何处理这种情况?

这里我提到的模型是机器学习模型,例如排名算法或推荐算法,但可以是现实中的任何算法。谢谢你的帮助!

1个回答

处理这种情况的一种方法是调查培训和 A/B 测试之间的差异。这里有几个常见的区别:

  • 建模训练过程优化了机器学习损失函数。A/B 测试优化业务价值。损失函数和业务价值可能会出现分歧。

  • 数据分布不同。机器学习模型是根据旧数据进行训练的。A/B 测试针对较新的数据。较旧和较新的数据来自不同的分布。