如何在给定的数据集中检查 IID 假设?

机器算法验证 分布 时间序列 自相关
2022-03-26 06:32:58

1-如何检查一组数据是否可以假定为 IID 数据?我对统计不太熟悉,但我想我应该看看独立分布的自相关的第一滞后。不知道相同的分布条件!

2-似乎我还不够清楚!我正在尝试检测一系列记录中的异常值(河流中的湍流流速)。我将数据转换为小波空间,然后将小波缩小到某个阈值。由于标准差是作为尺度估计器的最差选择,因此我寻找了一个新的估计器。Rousseeuw 和 Croux 开发了新的稳健估计器,用于测量 iid 随机变量 Sn 和 Qn 的离散度。我不知道他们喜欢的高击穿特性是否会延续到时间序列案例中。

从 kwak 给出的答案,我可以推断出小波不遵循独立分布属性。由于收缩后,非零元素的位置表示原始时间序列中的尖峰位置。我是真的吗?(改组索引会导致丢失峰值位置)如果是这样,在我们计算中位数时,其他尺度估计量(如中位数绝对偏差 (MAD))在时间序列的情况下无效。

相同分布假设要求怎么样?

3-好的,让我以简单的方式问我的问题:我想使用稳健的尺度估计器 Sn 和 Qn 来收缩一系列小波。小波是从以 1 Hz 采样率收集的湍流场速度矢量的分解观察获得的。如果数据可以假设为独立同分布,例如 Qn 的断点为 50%,效率为 82%(高斯分布)。我的问题是他们喜欢的高细分属性是否会延续到时间序列案例中。 或者我怎样才能批准小波遵循 iid 特征。

2个回答

您没有以正确的方式构建这两个问题。

给定一个随机数据集,即观察的集合xij躺在一般的位置,你总是可以使n xiRp通过随机洗牌彼此独立n索引。真正的问题是这样做是否会丢失信息。在某些情况下,您会(时间序列、面板数据、聚类分析、功能分析……)在其他情况下您不会。这是 IID 中的第一个 I。

“ID”也是根据您所说的分布来定义的。任何分布的混合也是一种分布。大多数情况下,“ID”是“单峰”的组合词。

一组观察是否是独立同分布的,通常是在考虑了基础数据生成过程之后做出的决定。在您的情况下,基础数据生成过程似乎是河流速度的测量值。我不认为这些观察是独立的。如果一个特定的测量值处于刻度的高端,那么下一个测量值也可能处于刻度的高端。换句话说,如果我知道一个测量值,我就可以推断出下一个测量值的可能值。但是,这些值可能是相同分布的,因为您的测量误差可能来自用于测量速度的方法。我想你会使用相同的方法来收集多个测量值。

但是,请注意,我对工程小波、小波空间一无所知,所以我可能在上述假设/答案中有所偏离。