如何确定移动窗口大小?

机器算法验证 探索性数据分析 移动窗口
2022-04-10 09:23:28

我正在使用移动窗口技术进行数据分析...

例如,我计算给定窗口的平均值、标准差等。

我想知道是否有任何好的标准来确定窗口大小......

我想计算均值、标准差等的多元方差和

选择最小化方差的窗口大小...

但在大多数情况下,窗口大小越长,方差越小......

所以我被卡住了......有没有什么标准可以解决确定的问题

窗户尺寸还是我必须用我的眼睛去选择一个最能娱乐我的眼睛?

3个回答

我同意胡伯。您应该有一些方法论,例如自举和稳定性标准(即稍微扰动您的数据并检查您的估计不会发生太大变化),或者更好的尖锐理论结果,以帮助您确定是否有足够的样本来计算你的估计正确。

然后,您应该使用最少的数据量,为您的结果相关性提供强有力的保证(理论或经验),但不要使用更多,因为您将平滑信号(或更多地违反平稳假设)。

只要您坚持估计均值、方差等,您应该能够找到理论结果和指导方针。如果您想确定复杂处理(例如机器学习算法)的窗口的最小长度,您应该进行实证研究,参见。本研究以相关随机变量的聚类为例。

通常,人们会选择捕获足够信息的滑动窗口的大小。选择太大,你会得到更多不相关的信息(分辨率损失)。选得太小,你会失去细节。

您可以通过以下方式查看。假设您有一些实值函数作为具有不同周期的正弦曲线的混合。选择长度为 L 的窗口大小会将您限制为可以提取的函数子集。

我在不同的背景下对此进行了一些思考,并提出了一种直觉上似乎合理的方法,尽管我有 compsci 而不是 stats 背景。

较小窗口大小的动机是提高对您从中采样的基础过程的变化的敏感性。我将其称为“预测值”。

假设它们都以我们期望的预测值或预测误差为单位分别表示为偏差或方差。

较大窗口大小的动机是由于样本量小而降低噪声。这是样本标准差:

标准偏差(samples_in_window)/sqrt(大小(samples_in_window))

在预测值方面,这是所有样本的平均值与窗口内样本的平均值之间的差异。

因此,我们的任务是选择最大化预测准确性的窗口大小,即预测值减去预测误差。

稍加考虑就可以非常有效地实现这一点,如果是这样,每次我们收到新样本时都可以重新计算窗口大小 - 允许它随着时间的推移动态调整窗口大小。

请注意,这整个方法是非参数的,因此它不只是将一个参数(窗口大小)替换为另一个或多个参数。