机器算法验证 - 加法误差还是乘法误差？ - 吾爱随笔录

机器算法验证造型模型错误曲线拟合测量误差

2022-01-25 12:10:45

我对统计数据比较陌生，希望能帮助我更好地理解这一点。

在我的领域有一个常用的形式模型：

P_{t} = P_{o} (V_{t})^{α}

$P_t = P_o(V_t)^\alpha$

当人们将模型拟合到数据时，他们通常将其线性化并拟合以下

\log (P_{t}) = \log (P_{o}) + α \log (V_{t}) + ϵ

$\log(P_t) = \log(P_o) + \alpha \log(V_t) + \epsilon$

这个可以吗？我在某处读到，由于信号中的噪声，实际模型应该是

P_{t} = P_{o} (V_{t})^{α} + ϵ

$P_t = P_o(V_t)^\alpha + \epsilon$

这不能像上面那样线性化。这是真的？如果是这样，是否有人知道我可以阅读和了解更多相关信息并可能在报告中引用的参考资料？

1个回答

哪种模型合适取决于平均值周围的变化如何进入观察值。它很可能以乘法或加法的方式出现……或以其他方式。

这种变化甚至可能有几个来源，一些可能以乘法进入，一些以加法进入，而另一些则以无法真正表征的方式进入。

有时有明确的理论来确定哪个是合适的。有时思考平均值变化的主要来源会揭示一个适当的选择。人们经常不清楚应该使用哪个，或者是否需要多个不同种类的变异来源来充分描述该过程。

对于使用线性回归的对数线性模型：

$\log(P_t)=log(P_o)+α\log(V_t)+ϵ$

OLS 回归模型假设对数尺度方差恒定，如果是这种情况，那么随着均值的增加，原始数据将显示出关于均值的分布越来越大。

另一方面，这种模型：

$P_t=P_o(V_t)^α+ϵ$

通常由非线性最小二乘拟合，同样，如果拟合恒定方差（NLS 的默认值），则均值的分布应该是恒定的。

在此处输入图像描述

[您可能有这样的视觉印象，即在最后一张图像中，散布随着均值的增加而减小；这实际上是由斜率增加引起的错觉——我们倾向于判断与曲线正交而不是垂直的传播，因此我们得到了扭曲的印象。]

如果您在原始尺度或对数尺度上具有几乎恒定的传播，这可能表明要拟合两个模型中的哪一个，不是因为它证明它是加法或乘法，而是因为它导致对传播的适当描述以及意思是。

当然，也可能存在具有非恒定方差的附加误差。

但是，仍有其他模型可以拟合此类函数关系，它们在均值和方差之间具有不同的关系（例如泊松或准泊松 GLM，其传播与均值的平方根成正比）。

其它你可能感兴趣的问题