对同一患者进行的测量是否独立?

机器算法验证 分类 实验设计
2022-03-24 20:34:41

我目前正在使用肺活量法对肺部疾病进行分类。这是一个程序,患者在管中吹气,我们收集空气量、压力等,以获得肺活量参数。

我的问题是:如果我对同一位患者进行三次肺活量测定,我是否可以将这三个检查在同一天视为我训练测试集的三个不同数据点,或者最好将结果平均并考虑只有一个数据点?如果患者在不同的日子来,我可以认为这次考试是独立的吗?

我认为可以将考试视为不同的数据点,但我想听听其他意见。

4个回答

它们绝对是三个不同的数据点,但它们也绝对不是独立的(无论是同一天还是不同天)。您应该怎么做取决于您的分析目标,但多层次模型可能是一个不错的选择。对这些点进行平均也是可能的,但它减少了可变性并消除了随着时间的推移查看趋势的能力。

我大多同意@PeterFlom 的回答。在我看来,你不应该平均你的数据(你基本上丢弃了 2/3 的信息,你为什么要这样做?),但你绝对应该考虑这样一个事实,即对同一患者的测量往往会比对不同患者的测量更接近。在这种情况下,我通常推荐混合线性模型,这是@PeterFlom 推荐的多级模型的一个简单实例。

具体来说,您将使用广义线性混合模型。链接函数将是逻辑函数,如“普通”逻辑回归。然而,函数形式将包括对每个参与者的多次观察,由随机效应建模,就像在“普通”线性混合模型中一样,在 R 中,您可以使用二项式系列通过lme4包中的 glmer() 来拟合它。对于预测,您可以使用单个测量值。yF(Xβ+Zγ)

当然,很难说在特定环境中混合模型是否比非混合模型预测得更好。混合模型的作用是考虑个人内部的可变性。如果你只是平均三个原始数据点,你会失去测量之间的所有可变性,所以你会对你从一个新的观察中预测的能力过于乐观。

另一方面,如果你只是简单地将所有观察结果都考虑在内而不考虑分组,你将再次过于乐观,因为所有标准误差都会缩小。想想如果你从每个参与者的一个观察开始会发生什么,比如 100 个数据点……然后简单地将每个观察复制 100 次。尽管您没有输入任何新信息,但您最终会得到 10,000 个“观察值”和比原始数据小得多的标准误差。

此外,混合模型允许对其他分组因素进行建模,例如位置、特定人口统计、员工、诊断师特征等。因此它们比平均方法更普遍。

这三个考试不同的数据点。尽管它们显然不是对您感兴趣的人群中所有可能考试的独立(或随机)观察,但至少对于我能想象的任何分析而言。

其他人强调,您最好将这些数据点包含在您的分析中(因为您已经拥有它们),作为患者内的简单复制 [嵌套设计] 或将“时间/访问”作为绝对(例如日期)或相对(访问次数)感兴趣的变量[某种形式的重复测量设计],如果有趣的话。我同意这是最有趣(也是最可能)的场景。

但是,如果您只对主题间变量感兴趣,则可能没有必要为增加的复杂性付费或改进您的结论。假设您只关心男性和女性之间的差异,或者您想通过患者年龄来解释风量。既然您知道您不能一次正确地描述患者的特征(即使同一患者在同一时刻测量结果也会发生变化),那么您可以采取多项措施并对它们进行平均。你不关心这种变化,它只是不可避免的;您只想尽可能接近该患者(当时/当时)的“真实”(平均值)值。可能是最合理的分析。

[查看这篇论文,了解统计分析中的简单性与复杂性。]

根据其他答案(不,这些观察肯定不是独立的,所以你怎么办)......

但是你想用这些信息来预测其他变量吗?到目前为止,许多建议似乎都假设您想使用肺活量测定法作为因变量,因此对误差进行建模更直接(使用多级模型)。如果您想将肺活量测量值用作自变量,则最好使用验证性因子分析模型,其中 3 个重复测量值被建模为单个潜在潜在变量的指标。潜在潜在变量的方差是所有三个度量共享的,因此可以更好地反映您真正追求的东西(例如,与取平均值相比)。