机器算法验证 - 聚合下保留了哪些统计信息？ - 吾爱随笔录

聚合下保留了哪些统计信息？

机器算法验证时间序列聚合

2022-03-12 06:16:49

如果我们有一个长的、高分辨率的时间序列，并且有很多噪音，那么将数据聚合到较低的分辨率（例如，每天到每月的值）以更好地了解正在发生的事情，有效地消除一些噪音。

我看过至少一篇论文，然后将一些统计数据应用于聚合数据，包括用于对单独变量进行线性回归。那有效吗？由于噪声降低，我原以为平均过程会稍微修改结果。 $r^2$

一般来说，一些统计数据是否能够应用于聚合的时间序列数据，而另一些则不能？如果有，有哪些？那些是线性组合的，也许？

2个回答

我认为标题中的问题过于宽泛，无法以有用的方式回答，因为它可能取决于汇总方法和相关统计数据。

这甚至适用于“平均值”：您是否尝试保留信号形状和强度（例如 Savitzky-Golay 滤波器），或者您是否尝试保留信号下方的区域（例如黄土）？
与噪声相关的统计数据明显受到影响：这通常是聚合的目的。

我至少看过一篇论文，然后将一些统计数据应用于聚合数据 [...] 这有效吗？由于噪声降低，我原以为平均过程会稍微修改结果。

这种修改很可能是聚合的目的。

一般来说，您可以对数据做很多事情，但您需要

说出你在做什么（最好也说出你为什么这样做）
显示结果模型的质量（使用独立数据进行测试）

什么是有效聚合也取决于您的应用程序。
例如：我正在处理光谱数据。将单个光谱聚合成平均光谱是很常见的：测量过程意味着对我可以“一次性”获得的光谱质量有一定的限制。然而，对于许多应用来说，指定一个采集过程是完全有效的，该过程表明应该进行另一方面，如果应用程序是实时/在线或在线分析，例如FIA（流量注入分析），这意味着对可能的聚合方案的限制。 $n$

在回归设置中，您实际上可以测试简单聚合是否是正确的选择。假设您有每月数据和每日数据（每月固定天）。假设您对回归感兴趣： $Y_t$ $X_\tau$ $m$

Y_{t} = α + β {\bar{X}}_{t} + u_{t}, (1)

$Y_t=\alpha+\beta \bar X_t +u_t, (1)$

其中

{\bar{X}}_{t} = \frac{1}{m} \sum_{h = 0}^{m - 1} X_{t m - h} .

$\bar X_t=\frac{1}{m}\sum_{h=0}^{m-1}X_{tm-h}.$

在这里，我们假设每个月的每日观测。在这种情况下，我们假设每天都有相同的重量，这显然是一个限制。所以我们可以假设更一般的模型成立： $t$ $X_{30(t-1)+1},...,X_{30t}$

Y_{t} = α + β {\bar{X}}_{t}^{(w)} + u_{t}, (2)

$Y_t=\alpha+\beta \bar X_{t}^{(w)} +u_t,(2)$

和

X_{t}^{(w)} = \sum_{h = 1}^{m - 1} w_{h} X_{t m - h} .

$X_t^{(w)}=\sum_{h=1}^{m-1}w_hX_{tm-h}.$

有很多文章探讨了的不同可能选择。通常假设，对于某些取决于参数。这种类型的回归模型称为 MIDAS（混合数据采样）回归。 $w_h$ $w_h=g(h,\alpha)$ $g$ $\alpha$

模型 (2) 嵌套了模型 (1)，因此可以检验的假设。本文提出了一个这样的测试（我是作者之一，对无耻的插件感到抱歉，我还编写了一个 R 包midasr用于估计和测试实现该测试的 MIDAS 回归）。 $w_h=\frac{1}{m}$

在非回归设置中，有结果表明聚合可以改变时间序列的属性。例如，如果您聚合具有短期记忆的 AR(1) 过程（时间序列的两个观察值之间的相关性在它们之间的距离增加时迅速消失），您可以获得具有长期记忆的过程。

因此，总结答案是，对聚合数据应用统计的有效性是一个统计问题。根据模型，您可以构建一个假设，它是否是一个有效的应用程序。

其它你可能感兴趣的问题

上一篇拉普拉斯平滑和狄利克雷先验下一篇什么时候（如果有的话）进行事后功率分析是个好主意？