分布偏移与数据偏移、概念偏移与模型偏移的区别

机器算法验证 机器学习 分布 概念漂移 协变量移位
2022-03-15 11:06:58

最近,我看到这两个术语在几种情况下可以互换使用。

定义有区别吗?特别是在数据转移和分布转移之间?

1个回答

我不知道这些术语中的每一个都有一个精确且公认的定义,这些定义将它们明显区分开来。这里有一篇关于这个主题的优秀博客文章但从广义上讲:

  • 模型漂移:这是指在某些情况下模型预测会随着时间的推移而恶化的一般想法。即模型预测的分布和真实值的分布相互偏离。发生这种情况的原因有很多。

    • 概念漂移:这是因变量引起的漂移。数据的分布可能保持不变,但输入和输出之间的关系已经改变。例如,在检测欺诈活动的模型中,对欺诈行为的定义可能会发生变化。
    • 数据漂移:这是由于输入数据分布的变化。例如,再次使用欺诈示例,我们可能会看到某些类型的欺诈增加,这会改变训练数据中观察到的观察分布。