我正在使用移动窗口技术进行数据分析...
例如,我计算给定窗口的平均值、标准差等。
我想知道是否有任何好的标准来确定窗口大小......
我想计算均值、标准差等的多元方差和
选择最小化方差的窗口大小...
但在大多数情况下,窗口大小越长,方差越小......
所以我被卡住了......有没有什么标准可以解决确定的问题
窗户尺寸还是我必须用我的眼睛去选择一个最能娱乐我的眼睛?
我正在使用移动窗口技术进行数据分析...
例如,我计算给定窗口的平均值、标准差等。
我想知道是否有任何好的标准来确定窗口大小......
我想计算均值、标准差等的多元方差和
选择最小化方差的窗口大小...
但在大多数情况下,窗口大小越长,方差越小......
所以我被卡住了......有没有什么标准可以解决确定的问题
窗户尺寸还是我必须用我的眼睛去选择一个最能娱乐我的眼睛?
通常,人们会选择捕获足够信息的滑动窗口的大小。选择太大,你会得到更多不相关的信息(分辨率损失)。选得太小,你会失去细节。
您可以通过以下方式查看。假设您有一些实值函数作为具有不同周期的正弦曲线的混合。选择长度为 L 的窗口大小会将您限制为可以提取的函数子集。
我在不同的背景下对此进行了一些思考,并提出了一种直觉上似乎合理的方法,尽管我有 compsci 而不是 stats 背景。
较小窗口大小的动机是提高对您从中采样的基础过程的变化的敏感性。我将其称为“预测值”。
假设它们都以我们期望的预测值或预测误差为单位分别表示为偏差或方差。
较大窗口大小的动机是由于样本量小而降低噪声。这是样本标准差:
标准偏差(samples_in_window)/sqrt(大小(samples_in_window))
在预测值方面,这是所有样本的平均值与窗口内样本的平均值之间的差异。
因此,我们的任务是选择最大化预测准确性的窗口大小,即预测值减去预测误差。
稍加考虑就可以非常有效地实现这一点,如果是这样,每次我们收到新样本时都可以重新计算窗口大小 - 允许它随着时间的推移动态调整窗口大小。
请注意,这整个方法是非参数的,因此它不只是将一个参数(窗口大小)替换为另一个或多个参数。