如果 iid(独立同分布)假设成立,那么训练和验证趋势不应该完全相同吗?
不,不一定。让我解释一下为什么。
如果您假设您的样本(即示例、观察、数据点等)是独立同分布的,这意味着
它们来自相同的分布,例如高斯分布ñ( 0 , 1 )(同分布部分),和
它们是独立从中提取的,即直观地说,每个样本独立于其他样本提供相同类型的信息
然而,即使样本是从某个分布中独立抽取的,它们也可能是不同的。例如,如果您绘制一个样本X从ñ( 0 , 1 ), 一个操作通常表示为x ~ N( 0 , 1 ),x可能有价值0,1,13或者50(或任何其他数字),因此它们可能是可变的,尽管您的样本往往主要在0,因为那是您的高斯密度更高的地方(而您的标准偏差只是1)。如果您的标准偏差更高,那么抽样过程中的可变性就会更大。
因此,如果您假设您的样本是从某个分布中独立抽取的,这并不意味着您将始终获得相同模式的样本。换句话说,您的样本仍然可能存在可变性,这也取决于您的样本分布。
为了更直接地回答您的问题,即使独立性假设成立,您的训练数据和验证数据也可能不一定具有相同的模式。因此,训练和验证趋势(我假设你的意思是性能)不一定相同,但是,虽然这也可能取决于训练方法,但我想说它们不应该有很大不同(如果假设成立)因为,直观地说,每个样本都应该像任何其他样本一样提供信息(独立假设)。
我们是否在处理假设存在一定程度的错误这一事实,或者我是否错误地解释了它?
做出 iid 假设通常很方便,即使它不成立,原因如下:
您的训练过程可能会更快地收敛(因为直观地说,每个样本都将与任何其他样本一样提供信息)
您的模型可能更简单(例如,在朴素贝叶斯中,您做出 iid 假设只是为了简化模型,通常是数学公式)
有时,如果不成立,您的训练过程可能会受到很大影响。在这些情况下,您可以找到解决方法并尝试使其保持不变。例如,在深度 Q 学习中使用经验回放是克服连续样本依赖性的技巧的一个例子,这会导致学习高度可变。看到这个问题为什么神经网络需要 iid 数据?.
CrossValidated 上关于iid 假设在统计学习中的重要性的问题的答案提供了更多信息和细节,因此您可能也想看看它。这是另一个答案,它与洗牌以及它如何使独立性假设成立或不成立有关,我强烈建议您阅读。