如果 iid 假设成立,那么训练和验证趋势不应该完全相同吗?

人工智能 机器学习 深度学习 训练 独立同居
2021-11-11 02:49:52

如果 iid(独立同分布)假设适用于训练-验证集对,那么它们的损失趋势是否应该完全相同,因为验证集中的每个批次都等效于训练集中的批次?

如果假设是真的,那不会使任何意识到有两个独立集合(正则化方法,例如提前停止)这一事实的方法变得毫无意义吗?

我们是否在处理假设存在一定程度的错误这一事实,或者我是否错误地解释了它?

PS - 这个问题源于对 MNIST 的观察(我认为 iid 假设非常成立)。对于使用负对数似然训练的任何网络(卷积和前馈),MNIST 上的训练和验证趋势(损失和准确性)几乎完全相同,这使得正则化毫无意义。

1个回答

如果 iid(独立同分布)假设成立,那么训练和验证趋势不应该完全相同吗?

不,不一定。让我解释一下为什么。

如果您假设您的样本(即示例、观察、数据点等)是独立同分布的,这意味着

  1. 它们来自相同的分布,例如高斯分布N(0,1)(同分布部分),和

  2. 它们是独立从中提取的,即直观地说,每个样本独立于其他样本提供相同类型的信息

然而,即使样本是从某个分布中独立抽取的,它们也可能是不同的。例如,如果您绘制一个样本xN(0,1), 一个操作通常表示为xN(0,1),x可能有价值0,1,13或者50(或任何其他数字),因此它们可能是可变的,尽管您的样本往往主要在0,因为那是您的高斯密度更高的地方(而您的标准偏差只是1)。如果您的标准偏差更高,那么抽样过程中的可变性就会更大。

因此,如果您假设您的样本是从某个分布中独立抽取的,这并不意味着您将始终获得相同模式的样本。换句话说,您的样本仍然可能存在可变性,这也取决于您的样本分布。

为了更直接地回答您的问题,即使独立性假设成立,您的训练数据和验证数据也可能不一定具有相同的模式。因此,训练和验证趋势(我假设你的意思是性能)不一定相同,但是,虽然这也可能取决于训练方法,但我想说它们不应该有很大不同(如果假设成立)因为,直观地说,每个样本都应该像任何其他样本一样提供信息(独立假设)。

我们是否在处理假设存在一定程度的错误这一事实,或者我是否错误地解释了它?

做出 iid 假设通常很方便,即使它不成立,原因如下:

  1. 您的训练过程可能会更快地收敛(因为直观地说,每个样本都将与任何其他样本一样提供信息)

  2. 您的模型可能更简单(例如,在朴素贝叶斯中,您做出 iid 假设只是为了简化模型,通常是数学公式)

有时,如果不成立,您的训练过程可能会受到很大影响。在这些情况下,您可以找到解决方法并尝试使其保持不变。例如,在深度 Q 学习中使用经验回放是克服连续样本依赖性的技巧的一个例子,这会导致学习高度可变。看到这个问题为什么神经网络需要 iid 数据?.

CrossValidated 上关于iid 假设在统计学习中的重要性的问题的答案提供了更多信息和细节,因此您可能也想看看它。这是另一个答案,它与洗牌以及它如何使独立性假设成立或不成立有关,我强烈建议您阅读。