比较具有相同变量的两个数据集

机器算法验证 数理统计 数据集 描述性统计 数学
2022-04-04 06:21:04

提前感谢任何花时间阅读/回答此问题的人。

我正在比较地面来源的数据集和卫星来源的天气条件数据集,例如温度。两组都是时间序列数据(地面每 15 分钟读取一次,而卫星每 30 分钟读取一次,因此地面数据的数据点数是其两倍)。我想在每个条目上比较这两组之间的差异,看看我的地面数据是否符合我的卫星数据的统计意义。

例如,一些温度条目如下所示:
在此处输入图像描述

基本上,我不确定使用哪种统计测试/方法来确定我的地面数据是否“好”,或者是否与我的卫星数据足够接近,或者它们之间的“不同”程度如何,以至于数据不准确。

我问的原因是卫星数据比我正在查看的一些站点的地面数据可靠得多,传感器故障困扰着我的地面数据集。本质上,我想在mathematica中自动化这个过程,这样它就会告诉我一个数据集是否值得使用。

感谢你的帮助!

1个回答

如果您不担心准确性会随着时间的推移而下降,或者不担心一天中的时间会导致测量结果的准确性降低,那么我会在这里通过使用配对样本 t 检验来提倡简单性。您完全缺少 :15 和 :45 间隔的数据,所以我会丢弃这些测量值,因为您无法将它们与卫星测量值进行比较。然后,使用剩余的数据,获取卫星测量值和地面测量值之间的然后对进行简单的 t 检验,以确定是否可以在您期望的置信水平下被拒绝。ydiff=ysatelliteygroundydiffH0:ydiff=0

如果有时间问题,我会看看建立时间序列类型模型进行分析。