两个小时模式之间的统计差异
机器算法验证
时间序列
统计学意义
群体差异
2022-04-10 12:48:56
2个回答
这是一个老问题,但没有公认的答案,所以让我提供自己的答案。
这里有一些数据,虽然与您的数据不完全一样,但对于我们的目的来说已经足够接近了。
因为数据是非线性的,我认为 GAM 可能在这里工作得很好。我将使用 mgcv 库首先拟合一个简单的 gam,它使用平滑的时间和年龄组的附加效应(此处标记为 g)。
型号代码:
model = gam(y ~ s(t) + g, data = d)
让我们来看看预测。
模型看起来不错,也许尾部可能有问题。让我们拟合一个因组而异的平滑
model = gam(y ~ s(t, by = g), data = d)
让我们来看看预测
呃……也许我们需要那种附加效果。最后,让我们拟合一个模型,该模型因组而异,但也具有相加效应
model = gam(y ~ s(t, by = g) + g, data = d)
我认为这是我们将得到的最合适的。我应该补充一点,由于这些数据在技术上是周期性的,我们应该通过bs = 'cc'
使用循环三次回归。它model
有一个summary
看起来很像lm
摘要的功能,并带有假设检验。固定效应的检验类似于线性模型,但平滑的零假设要复杂一些。就我而言,加文·辛普森(Gavin Simpson)就像The GAM Guy 一样,在这里对 gam 汇总表进行了出色的总结。
您为什么不分成几个持续时间为 2 小时的时间段,例如 00:04、04:06 等,并且对于每个波段,您对每个波段应用两个样本 t 检验。您没有提到每组有多少患者,但如果他们只有少数,则应该进行 t 检验。然后您将获得每个时间段的 p 值和置信区间。仅当您可以拒绝所有波段并使用最大 p 值作为整个总体的 p 值时,您才能拒绝原假设。
其它你可能感兴趣的问题