两个小时模式之间的统计差异

机器算法验证 时间序列 统计学意义 群体差异
2022-04-10 12:48:56

我有两组科目,即:

  • 67岁以下的科目
  • 67岁以上的科目

每组的每个受试者都佩戴一个传感器,该传感器估计一天中任务的代谢当量 (MET)(该测量值表示受试者在一天中的活跃程度......它类似于能量消耗)。

对于每位患者,我计算每小时的平均 MET,这意味着每位患者都由具有 24 个数据点的时间序列表示。

在图片中,您可以找到每组受试者的每小时平均 METS 以及 95% 的置信区间。这张图片代表了 2 组的每小时模式。

是否有统计测试来比较(并强调两者之间的差异)2 小时模式?

问题是: 如何(使用统计测试)显示 67 岁以上和 67 岁以下的人的每小时模式之间存在显着差异?

在此处输入图像描述

2个回答

这是一个老问题,但没有公认的答案,所以让我提供自己的答案。

这里有一些数据,虽然与您的数据不完全一样,但对于我们的目的来说已经足够接近了。

在此处输入图像描述

因为数据是非线性的,我认为 GAM 可能在这里工作得很好。我将使用 mgcv 库首先拟合一个简单的 gam,它使用平滑的时间和年龄组的附加效应(此处标记为 g)。

型号代码:

model = gam(y ~ s(t) + g, data = d)

让我们来看看预测。

在此处输入图像描述

模型看起来不错,也许尾部可能有问题。让我们拟合一个因组而异的平滑

model = gam(y ~ s(t, by = g), data = d)

让我们来看看预测

在此处输入图像描述

呃……也许我们需要那种附加效果。最后,让我们拟合一个模型,该模型因组而异,但也具有相加效应

model = gam(y ~ s(t, by = g) + g, data = d)

在此处输入图像描述

我认为这是我们将得到的最合适的。我应该补充一点,由于这些数据在技术上是周期性的,我们应该通过bs = 'cc'使用循环三次回归。model有一个summary看起来很像lm摘要的功能,并带有假设检验。固定效应的检验类似于线性模型,但平滑的零假设要复杂一些。就我而言,加文·辛普森(Gavin Simpson)就像The GAM Guy 一样,在这里对 gam 汇总表进行了出色的总结。

您为什么不分成几个持续时间为 2 小时的时间段,例如 00:04、04:06 等,并且对于每个波段,您对每个波段应用两个样本 t 检验。您没有提到每组有多少患者,但如果他们只有少数,则应该进行 t 检验。然后您将获得每个时间段的 p 值和置信区间。仅当您可以拒绝所有波段并使用最大 p 值作为整个总体的 p 值时,您才能拒绝原假设。