神经网络数据集中样本独立且相同分布的含义是什么

数据挖掘 机器学习 神经网络
2022-03-02 12:42:40

抛硬币产生的正面或反面之类的随机变量是independent因为每次我们抛掷的结果不依赖于之前的抛掷(换句话说,生成随机变量的函数没有内存)。该示例也是identically distributed因为每个折腾结果都遵循相同的分布(二项分布)。

但是在图像分类(如手写数字数据集)的情况下,IID 的含义是什么。每个样本都独立于之前的样本,但是我们如何确保它们以相同的概率分布生成(或者在这种特定情况下这是什么意思)?

或者在循环神经网络的情况下,我们从系列中创建过样本(根据问题的约束)。我们可以进行洗牌以确保数据集中的样本是独立的,但是样本的相同分布呢?

1个回答

一旦数据与我们在一起,我们能做的最好的事情就是打乱样本以使它们均匀分布,假设它背后有一个生成所有样本的假设过程。

我们以 MNIST 数字为例,假设的过程是我们对数字的相似知识,所以我们大多数人都会用类似的方式来写一个特定的数字

现在让我们在日本 MNIST 上测试 MNIST 模型,它会因为假设被打破而失败。

再一次,混合 MNIST、随机播放、拆分和训练。它将学习模式并可以预测数字。
再一次,训练/测试都具有相似的像素概率分布

在训练模型时,
如果过程是增量的,例如梯度下降,我们会尝试确保每个批次都代表父分布。这又是通过 Shuffle esp 实现的。分层洗牌。