何时使用戴明回归

机器算法验证 回归 全最小二乘法
2022-03-17 23:17:40

我目前正在研究一种将两种不同的磷测试值相互转换的方法。

背景

存在许多(提取)方法来测量土壤中的植物有效磷。不同的国家采用不同的方法,因此要比较各国的 P 生育率,有必要根据 P 检验值 y 计算 P 检验值 x,反之亦然。因此响应和协变量是可以互换的。

萃取剂 1 中的 P 量 = [mg/100g 土壤中的 P_CAL]

萃取剂 2 中的 P 量 = [mg/100g 土壤中的 P_DL]

为了建立这样一个“转换方程”,用 CAL 和 DL 提取物分析了 136 个土壤样品的 P 含量。还测量了其他参数,例如土壤 pH 值、总有机碳、总氮、粘土和碳酸盐。目标是推导出一个简单的回归模型。在第二步中还有一个多重模型。

为了提供数据的概述,我向您展示了两个带有简单线性 (OLS) 回归线的散点图。 a) CAL-P~DL-P 的简单 OLS 回归,b) DL-P~CAL-P 的简单 OLS 回归

问题:

据我了解,如果响应 (y) 和解释 (x) 变量都具有(测量)错误并且可以互换,则戴明回归是合适的。戴明回归假设方差比是已知的。由于我没有关于 P 提取测量精度的详细信息,是否有另一种方法来确定方差比?这里指的是哪个方差?我假设它不是计算出来的var(DL_P)/var(CAL_P)

Q1:如何确定戴明回归的方差比?

戴明回归的一个特例是正交回归。它假设方差比 = 1。

Q2:有没有办法诊断假设 δ = 1 是否“大致”正确,或者(错误)假设是否会导致高预测误差?

如果我假设 δ = 1,则正交回归提供以下(四舍五入)输出

library(MethComp) deming <- Deming(y=P_CAL, x=P_DL, vr=1)

截距:0.75;斜率:0.71;西格玛 P_DL:3.17;西格玛 P_CAL:3.17

在上图中绘制 deming 回归线,表明 deming 回归非常接近 a) CAL-P=f(DL-P) 回归,但与 b) DL-P=f(CAL-P) 非常不同方程。 在此处输入图像描述

Q3:正交回归中CAL-​​P=f(DL-P)和DL-P=f(CAL-P)用同一个方程表示对吗?如果不是,我如何为两者推导出正确的方程?我在这里想念什么?

由于两种提取溶液的特性,DL-P 值往往比 CAL-P 值高 25% 左右,因此 CAL-P=f(DL-P) 应该比 DL-P=f(CAL) 具有更高的斜率-P)。然而,当只有一个斜率时,这不会在戴明回归中表达出来。这给我留下了我的最后一个问题。

Q4:戴明回归对我的目的来说是一种有效的方法吗?

1个回答

在这里解决您的部分担忧:戴明回归似乎在图面板 B 中提供了较差的拟合,但这是因为该图不正确。评估这是否正确完成的一种快速方法是查看沿戴明回归线的 X 和 Y 值。对于面板 A 中的任何 DL-P 值,它应该具有在两个面板中相同的对应 CAL-P 值(对于 OLS 不正确,它们之间的根本区别)。但在这些图中,DL-P = 20,面板 A 中的 CAL-P 约为 15,面板 B 中约为 27。

错误似乎是通过交换方程中的 CAL-P 和 DL-P 项绘制了戴明回归线。面板 A 的方程为:

CAL-P = 0.75 + 0.71*DL-P

重新排列,这意味着面板 B 的方程应该是:

DL-P = (CAL-P - 0.75) / 0.71

并不是:

DL-P = 0.75 + 0.71*CAL-P(已绘制)