机器算法验证 - 何时使用戴明回归 - 吾爱随笔录

我目前正在研究一种将两种不同的磷测试值相互转换的方法。

背景

存在许多（提取）方法来测量土壤中的植物有效磷。不同的国家采用不同的方法，因此要比较各国的 P 生育率，有必要根据 P 检验值 y 计算 P 检验值 x，反之亦然。因此响应和协变量是可以互换的。

萃取剂 1 中的 P 量 = [mg/100g 土壤中的 P_CAL]

萃取剂 2 中的 P 量 = [mg/100g 土壤中的 P_DL]

为了建立这样一个“转换方程”，用 CAL 和 DL 提取物分析了 136 个土壤样品的 P 含量。还测量了其他参数，例如土壤 pH 值、总有机碳、总氮、粘土和碳酸盐。目标是推导出一个简单的回归模型。在第二步中还有一个多重模型。

为了提供数据的概述，我向您展示了两个带有简单线性 (OLS) 回归线的散点图。

问题：

据我了解，如果响应 (y) 和解释 (x) 变量都具有（测量）错误并且可以互换，则戴明回归是合适的。戴明回归假设方差比是已知的。由于我没有关于 P 提取测量精度的详细信息，是否有另一种方法来确定方差比？这里指的是哪个方差？我假设它不是计算出来的var(DL_P)/var(CAL_P)？

Q1：如何确定戴明回归的方差比？

戴明回归的一个特例是正交回归。它假设方差比 = 1。

Q2：有没有办法诊断假设 δ = 1 是否“大致”正确，或者（错误）假设是否会导致高预测误差？

如果我假设 δ = 1，则正交回归提供以下（四舍五入）输出

library(MethComp) deming <- Deming(y=P_CAL, x=P_DL, vr=1)

截距：0.75；斜率：0.71；西格玛 P_DL：3.17；西格玛 P_CAL：3.17

在上图中绘制 deming 回归线，表明 deming 回归非常接近 a) CAL-P=f(DL-P) 回归，但与 b) DL-P=f(CAL-P) 非常不同方程。

Q3：正交回归中CAL-P=f(DL-P)和DL-P=f(CAL-P)用同一个方程表示对吗？如果不是，我如何为两者推导出正确的方程？我在这里想念什么？

由于两种提取溶液的特性，DL-P 值往往比 CAL-P 值高 25% 左右，因此 CAL-P=f(DL-P) 应该比 DL-P=f(CAL) 具有更高的斜率-P)。然而，当只有一个斜率时，这不会在戴明回归中表达出来。这给我留下了我的最后一个问题。

Q4：戴明回归对我的目的来说是一种有效的方法吗？