想象一下,我正在收集一些训练数据。假设我从 1000 人中收集了一个 30 分钟的时间序列,所以我的特征矩阵中有 1000 个观察值(行)。我训练了一些模型(让我们说这个例子的神经网络),我发现我的 AUC 真的很差,我认为问题在于我只有 1000 个观察值 - 所以我没有足够的数据
但是,我现在无法收集更多数据。我可以做的一件事就是将 30 分钟的时间序列分成 30 个 1 分钟的部分。然后将这些 1 分钟系列用作我的数据中的行。所以我最终会得到每人 30 次观察和 1000 个人,在我的特征矩阵中给我 30000 行。我现在将训练集的大小增加了 30 倍
如果我在进行统计/推理测试时这样做,我将违反独立性假设,并且我将被迫使用一些多级模型对其进行建模以进行纠正
这是否与机器学习中的 IID 假设相同,即您的每一行都必须相互独立?
对于推理测试,这个假设很重要的(其中一个)原因是它会影响推理的类型 1 错误。但是,在机器学习中,我们没有进行任何推理测试,那么违反 IID 对结果究竟有什么影响呢?换句话说,为什么行需要相互独立?尤其是在上述情况下,我可以通过重用 1 个人数据的不同部分来大幅增加训练集的大小