时间序列显着性检验的时间分辨率是多少?

机器算法验证 时间序列
2022-03-15 08:05:14

我需要一些关于适当汇集水平的指导,以用于时间序列数据的均值测试差异。我担心临时的和牺牲的伪复制,这似乎在这个应用程序上很紧张。这是指月经研究而不是操纵性实验。

考虑一个监测练习:一个传感器系统测量整个池塘宽度和深度的许多位置的溶解氧 (DO) 含量。每个传感器的测量值每天记录两次,因为已知 DO 每天都会变化。这两个值被平均以记录每日值。每周一次,将每日结果在空间上汇总,以得出整个池塘的单个每周 DO 浓度。

这些每周结果会定期报告,并进一步汇总 - 每周结果平均得出池塘的每月 DO 浓度。将每月结果平均得出年度值。年平均值本身是平均的,以报告池塘的十年 DO 浓度。

目标是回答以下问题:X 年池塘的 DO 浓度与 Y 年的浓度是更高、更低还是相同?过去十年的平均溶解氧浓度是否与前十年不同?池塘中的 DO 浓度响应于大量输入,因此变化很大。需要进行显着性检验。方法是使用 T 检验比较均值。鉴于年代值是年值的平均值,而年值是月值的平均值,这似乎是合适的。

问题来了——您可以根据每月 DO 值或年度 DO 值计算十年平均值和这些平均值的 T 值。平均值当然不会改变,但置信区间的宽度和 T 值会改变。由于使用每月值获得的 N 高出一个数量级,如果你走这条路,CI 通常会大大收紧。这可以给出相反的结论,而不是使用关于观察到的平均值差异的统计显着性的年度值,对相同的数据使用相同的测试。 对这种差异的正确解释是什么?

如果您使用每月结果来计算十年均值差异的测试统计数据,您是否与时间伪复制发生冲突?如果您使用年度结果来计算十年测试,您是否会牺牲信息并因此进行伪复制?

1个回答

我相信您正在尝试使用适合独立观察的统计方法,同时您拥有临时和空间相关数据。如果您有 5 个小时的观察结果并决定将其重新说明为每分钟进行 241 次观察,那么您实际上没有 240 个自由度相对于这 241 个值的平均值。自相关可能会夸大“N”的大小,从而产生错误的不确定性陈述。你需要做的是找人/一些教科书/一些网站/....来教你时间序列数据及其分析。一种开始的方法是谷歌“帮助我理解时间序列”并开始阅读/学习。网络上有很多可用的材料。http://www.autobox.com/AFSUniversity/afsuFrameset.htm我提到这一点是因为我仍然与这家公司及其产品有联系,因此我的评论是“有偏见和固执己见的”,但不仅仅是自私自利。