我最近有一个客户来找我进行引导分析,因为 FDA 审查员说他们的变量误差回归是无效的,因为当汇集来自站点的数据时,分析包括汇集来自三个站点的数据,其中两个站点包含一些样本相同。
背景
客户有一种新的检测方法,他们想证明它与现有的已批准方法“等效”。他们的方法是比较两种方法应用于相同样品的结果。三个站点用于进行测试。变量误差(戴明回归)应用于每个站点的数据。这个想法是,如果回归显示斜率参数接近 1,截距接近 0,这将表明这两种测定技术给出了几乎相同的结果,因此应该批准新方法。在站点 1,他们有 45 个样本,提供了 45 对成对的观察结果。站点 2 有 40 个样本,站点 3 有 43 个样本。他们做了三个单独的戴明回归(假设两种方法的测量误差比率为 1)。因此,该算法最小化了平方垂直距离的总和。
客户在提交的材料中指出,站点 1 和站点 2 使用的一些样本是相同的。在审查中,FDA 审查员说戴明回归是无效的,因为使用了普通样本会导致“干扰”,从而使模型的假设无效。他们要求对戴明结果进行引导调整以考虑这种干扰。
那时,由于客户不知道如何进行引导,因此我被引入了。干扰一词很奇怪,我不确定审稿人到底在说什么。我认为关键是因为合并的数据有共同的样本,所以共同的样本会有相关性,因此模型误差项不会都是独立的。
客户分析
这三个独立的回归非常相似。每个都具有接近 1 的斜率参数和接近 0 的截距。在每种情况下,95% 置信区间分别包含斜率和截距的 1 和 0。主要区别在于站点 3 的残余方差略高。此外,他们将此与执行 OLS 的结果进行了比较,发现它们非常相似(仅在一种情况下,基于 OLS 的斜率的置信区间不包含 1)。在斜率的 OLS CI 不包含 1 的情况下,区间的上限约为 0.99。
由于所有三个站点的结果都非常相似,因此汇集站点数据似乎是合理的。客户做了一个汇总的戴明回归,这也导致了类似的结果。鉴于这些结果,我为客户写了一份报告,对回归无效的说法提出异议。我的论点是,由于两个变量中存在相似的测量误差,因此客户使用戴明回归作为表示同意/不同意的一种方式是正确的。单个站点回归没有相关错误的问题,因为在给定站点内没有重复样本。汇集数据以获得更紧密的置信区间。
这个困难可以通过简单地将数据与来自站点 1 的常见样本进行合并来解决,比如被排除在外。三个单独的站点模型也没有问题并且是有效的。在我看来,即使没有汇集,这也提供了一致的有力证据。此外,在公共站点的站点 1 和站点 2 独立进行了测量。所以我认为即使使用所有数据的汇总分析也是有效的,因为站点 1 的样本的测量误差与站点 2 相应样本的测量误差不相关。这实际上只是重复设计中的一个点应该不是问题的空间。它不会产生相关性/“干扰”。
在我的报告中,我写道没有必要进行引导分析,因为没有相关性需要调整。三个站点模型是有效的(站点内没有可能的“干扰”),并且可以在进行合并时删除站点 1 的常见样本进行合并分析。这样的汇总分析不会有干扰问题。没有必要进行自举调整,因为没有要调整的偏差。
结论
客户同意我的分析,但不敢将其提交给 FDA。无论如何,他们希望我进行引导调整。
我的问题
A) 你是否同意 (1) 我对客户结果的分析和 (2) 我的论点,即引导程序是不必要的。
B)鉴于我必须引导戴明回归,是否有任何程序 SAS 或 R 可供我对引导样本进行戴明回归?
编辑:鉴于 Bill Huber 的建议,我计划通过对 x 和 x 在 y 上的回归来查看变量误差回归的界限。我们已经知道,对于一个版本的 OLS,当假设两个误差方差相等时,答案与变量误差基本相同。如果其他回归也是如此,那么我认为这将表明戴明回归提供了适当的解决方案。你同意?
为了满足客户的要求,我需要进行定义模糊的引导分析。从道德上讲,我认为只提供引导程序是错误的,因为它并不能真正解决客户的真正问题,即证明他们的化验测量程序是合理的。所以我会给他们两个分析,并至少要求他们告诉 FDA,除了做引导之外,我还做了逆回归,并限制了我认为更合适的戴明回归。此外,我认为分析将表明他们的方法等同于参考,因此戴明回归也足够了。
我计划使用@whuber 在他的回答中建议的 R 程序,以使我能够引导戴明回归。我对 R 不是很熟悉,但我想我可以做到。我已经安装了 R 和 R Studio。对于像我这样的新手来说,这是否足够容易?
我也有 SAS,并且更喜欢在 SAS 中编程。因此,如果有人知道在 SAS 中执行此操作的方法,我将不胜感激。