变量误差回归:汇集来自三个站点的数据是否有效?

机器算法验证 回归 变量错误 德明回归 汇集
2022-02-14 14:07:09

我最近有一个客户来找我进行引导分析,因为 FDA 审查员说他们的变量误差回归是无​​效的,因为当汇集来自站点的数据时,分析包括汇集来自三个站点的数据,其中两个站点包含一些样本相同。

背景

客户有一种新的检测方法,他们想证明它与现有的已批准方法“等效”。他们的方法是比较两种方法应用于相同样品的结果。三个站点用于进行测试。变量误差(戴明回归)应用于每个站点的数据。这个想法是,如果回归显示斜率参数接近 1,截距接近 0,这将表明这两种测定技术给出了几乎相同的结果,因此应该批准新方法。在站点 1,他们有 45 个样本,提供了 45 对成对的观察结果。站点 2 有 40 个样本,站点 3 有 43 个样本。他们做了三个单独的戴明回归(假设两种方法的测量误差比率为 1)。因此,该算法最小化了平方垂直距离的总和。

客户在提交的材料中指出,站点 1 和站点 2 使用的一些样本是相同的。在审查中,FDA 审查员说戴明回归是无效的,因为使用了普通样本会导致“干扰”,从而使模型的假设无效。他们要求对戴明结果进行引导调整以考虑这种干扰。

那时,由于客户不知道如何进行引导,因此我被引入了。干扰一词很奇怪,我不确定审稿人到底在说什么。我认为关键是因为合并的数据有共同的样本,所以共同的样本会有相关性,因此模型误差项不会都是独立的。

客户分析

这三个独立的回归非常相似。每个都具有接近 1 的斜率参数和接近 0 的截距。在每种情况下,95% 置信区间分别包含斜率和截距的 1 和 0。主要区别在于站点 3 的残余方差略高。此外,他们将此与执行 OLS 的结果进行了比较,发现它们非常相似(仅在一种情况下,基于 OLS 的斜率的置信区间不包含 1)。在斜率的 OLS CI 不包含 1 的情况下,区间的上限约为 0.99。

由于所有三个站点的结果都非常相似,因此汇集站点数据似乎是合理的。客户做了一个汇总的戴明回归,这也导致了类似的结果。鉴于这些结果,我为客户写了一份报告,对回归无效的说法提出异议。我的论点是,由于两个变量中存在相似的测量误差,因此客户使用戴明回归作为表示同意/不同意的一种方式是正确的。单个站点回归没有相关错误的问题,因为在给定站点内没有重复样本。汇集数据以获得更紧密的置信区间。

这个困难可以通过简单地将数据与来自站点 1 的常见样本进行合并来解决,比如被排除在外。三个单独的站点模型也没有问题并且是有效的。在我看来,即使没有汇集,这也提供了一致的有力证据。此外,在公共站点的站点 1 和站点 2 独立进行了测量。所以我认为即使使用所有数据的汇总分析也是有效的,因为站点 1 的样本的测量误差与站点 2 相应样本的测量误差不相关。这实际上只是重复设计中的一个点应该不是问题的空间。它不会产生相关性/“干扰”。

在我的报告中,我写道没有必要进行引导分析,因为没有相关性需要调整。三个站点模型是有效的(站点内没有可能的“干扰”),并且可以在进行合并时删除站点 1 的常见样本进行合并分析。这样的汇总分析不会有干扰问题。没有必要进行自举调整,因为没有要调整的偏差。

结论

客户同意我的分析,但不敢将其提交给 FDA。无论如何,他们希望我进行引导调整。

我的问题

A) 你是否同意 (1) 我对客户结果的分析和 (2) 我的论点,即引导程序是不必要的。

B)鉴于我必须引导戴明回归,是否有任何程序 SAS 或 R 可供我对引导样本进行戴明回归?

编辑:鉴于 Bill Huber 的建议,我计划通过对 x 和 x 在 y 上的回归来查看变量误差回归的界限。我们已经知道,对于一个版本的 OLS,当假设两个误差方差相等时,答案与变量误差基本相同。如果其他回归也是如此,那么我认为这将表明戴明回归提供了适当的解决方案。你同意?

为了满足客户的要求,我需要进行定义模糊的引导分析。从道德上讲,我认为只提供引导程序是错误的,因为它并不能真正解决客户的真正问题,即证明他们的化验测量程序是合理的。所以我会给他们两个分析,并至少要求他们告诉 FDA,除了做引导之外,我还做了逆回归,并限制了我认为更合适的戴明回归。此外,我认为分析将表明他们的方法等同于参考,因此戴明回归也足够了。

我计划使用@whuber 在他的回答中建议的 R 程序,以使我能够引导戴明回归。我对 R 不是很熟悉,但我想我可以做到。我已经安装了 R 和 R Studio。对于像我这样的新手来说,这是否足够容易?

我也有 SAS,并且更喜欢在 SAS 中编程。因此,如果有人知道在 SAS 中执行此操作的方法,我将不胜感激。

1个回答

这是一个相互校准问题:即定量比较两个独立的测量设备。

似乎有两个主要问题。 第一个(仅在问题中隐含)在于构建问题:应该如何确定一种新方法是否与已批准的方法“等效”?第二个问题涉及如何分析某些样本可能已被多次测量的数据。

构筑问题

对所述问题的最佳(也许是显而易见的)解决方案是使用从可比介质(例如人血浆)获得的具有准确已知值的样本来评估新方法。(这通常是通过在实际样品中加入已知浓度的标准材料来完成的。)因为这还没有完成,所以我们假设它要么不可能,要么不被监管机构接受(无论出于何种原因)。因此,我们只能比较两种测量方法,其中一种被用作参考,因为它被认为是准确和可重复的(但没有完美的精度)。

实际上,客户将要求 FDA 允许新方法作为已批准方法的代理或替代。因此,他们的责任是证明新方法的结果将足够准确地预测批准的方法如果应用它会确定什么。 微妙之处在于,我们并没有试图预测真实值本身——我们甚至不知道它们。因此,变量误差回归可能不是分析这些数据的最合适方法。

在这种情况下,通常的解决方案是“逆回归”(例如,在 Draper & Smith,Applied Regression Analysis (Second Edition),第 1.7 节中描述)。简而言之,这种技术使新方法的结果回归Y反对批准的方法的结果X,建立一个合适的预测区间,然后对该区间进行函数反转以获得X对于任何给定的值Y. 如果,对于预期的范围Y值,这些范围X是“足够小”,那么Y是一个有效的代理X. (根据我的经验,这种方法趋于保守严格:这些间隔可能会大得惊人,除非两种测量都高度准确、精确且线性相关。)

处理重复样本

这里的相关概念是样本支持方差分量。 “样品支持”是指实际测量的对象(此处为人)的物理部分。在拍摄对象的某个部分后,通常需要将其划分为适合测量过程的子样本。我们可能会担心子样本之间存在差异的可能性。在充分混合的液体样品中,整个样品中的基本量(例如化学物质的浓度)基本上没有变化,但在固体或半固体样品(可能包括血液)中,这种变化可能是重大的。考虑到实验室通常只需要微升溶液来进行测量,我们必须关注几乎在微观尺度上的变化。这可能很重要。

这种变化的可能性物理样本表明测量结果的变化应划分为单独的“方差分量”。一个分量是来自样本内变异的方差,而其他分量是来自后续测量过程的每个独立步骤的方差的贡献。(这些步骤可能包括二次取样的物理行为、样品的进一步化学和物理处理(例如添加稳定剂或离心)、将样品注入测量仪器、仪器内部的变化、仪器之间的变化以及其他由于仪器操作人员的变化、实验室中可能的环境污染等原因而发生的变化。我希望这清楚地表明,为了很好地回答这个问题,统计学家需要对整个采样和分析过程有透彻的了解。我所能做的就是提供一些一般性的指导。)

这些考虑适用于手头的问题,因为在两个不同“地点”测量的一个“样本”实际上是从同一个人获得的两个物理样本,然后在实验室之间进行拆分。批准方法的测量将使用一个分割样品,而新方法的同时测量将使用另一块分割样品。通过考虑这些分裂所暗示的方差分量,我们可以解决问题的主要问题。现在应该清楚的是,这些成对测量之间的差异应该归因于两件事:首先,测量程序之间的实际差异——这是我们试图评估的——第二,由于内部任何变化引起的差异。样品以及提取两个待测子样品的物理过程引起的变化。 如果关于样本同质性和二次抽样过程的物理推理可以确定第二种形式的方差可以忽略不计,那么确实不存在审稿人声称的“干扰”。否则,这些方差分量可能需要在逆回归分析中明确建模和估计。