如何计算多个纵向数据集的回归(因此,具有自相关误差)?

机器算法验证 回归 自相关 非线性回归 面板数据 指数分布
2022-04-01 23:52:57

我的实际项目有点复杂,但我会通过类比来解释(我希望有助于响应):

我有 3 种物质,比如水、机油和乙醇。对于每种物质,我在一个烧杯中有 5 个样品(总共 15 个烧杯)。我将热板上的所有烧杯加热到 70 摄氏度,然后在接下来的一个小时内,我每隔 5 分钟测量每个烧杯中液体的温度。

牛顿冷却为我提供了关于这些温度数据的良好预测,即每个杯子中​​的流体温度应遵循指数分布:y = a + e^(-kt) 其中 a 是室温。

我想估计每种物质的 k 值,并检验 k1 > k2 > k3 的假设(1、2、3 对应于我的三种物质)。估计 k 的自然方法似乎是对每种物质的数据计算非线性回归,或者可能对所有数据进行对数转换,然后只计算简单的线性回归。但是,也有问题。

一些问题:

  1. 鉴于纵向数据中明显的自相关(当然由我的 (P)ACF 图确认),我必须在计算回归之前计算 AR 项并过滤我的数据吗?
  2. 假设我计算这个自回归项,我如何计算五个独立的数据集(给定物质的五个烧杯)?我可以将五个烧杯平均在一起,然后计算回归,但这搞砸了我的 AR 项(假设我需要一个),并且还抛出了我对模型中实际烧杯内方差的估计。
  3. 我在这里做过什么完全错误的假设......?
2个回答

如果我正确理解您的问题,您应该能够使用非线性混合效果模型实现您想要做的事情。如果你使用 R,你可以使用nlme包。基本上作为固定因子,您有一个协变量 (a) 和一个因子()。您还有随机效应(单独的测量单位或 unitID)。好处是它还允许您使用例如 AR 协方差结构对残差中的相关性进行建模。ikinlme

编辑:在处理重复测量时,我总是喜欢使用混合模型。不过,如果您不想包含随机因素,您可以gnls在同一个包中对其进行建模。gnls仍然允许您选择 AR 作为残差的协方差结构。

由于我们有充分的理由相信每个烧杯的冷却将遵循函数,因此我将首先检查该模型是否确实适合数据。y(t)=a+ekt

如果是这样,我根本不会费心分析自相关,而是专注于的估计,并检验关于它们的假设。k1k2k3

要估计,您需要一个非线性模型。温度与公式预测的温度之间的差异)与温度成正比时,您对对数变换后跟线性建模的想法是最好的。但是,我怀疑该误差主要是由于温度测量引起的,因此对于任何温度都具有相同的方差(您需要检查这一点)。如果是这样,非线性模型会更合适。k1k2k3y

使用上述函数的模型将为您估计单个烧杯的冷却参数。然而,我们可以假设每个烧杯的 a 应该相同 s 应该相似,并且标准偏差 ( ) 在所有温度测量中都是相同的。这些可以用同时考虑所有烧杯的模型来表示(第二个索引是烧杯 ID): 其中 是 SD的正态分布误差,是 3 个均值akakσj

yj(t)=a+e(ki+αj)t+ϵ
ϵσkik物质的值,是特定烧杯与 k_i 物质平均值的正态分布随机偏差具有物质特定的 SD ( )。现在这是一个非线性混合效应模型,可以使用各种软件进行拟合。在此之后,您将获得值及其标准错误。iαjkiσαiki

下一个问题是如何检验的假设。以贝叶斯的方式提出这样的假设可能更“干净”。但是,您使用了测试这个词,因此您可能需要进行显着性检验——但为了做到这一点,您必须有一个更具体的替代假设(或假设族)。k1>k2>k3