机器算法验证 - 逻辑回归能否用于检测最小二乘回归中的大误差？ - 吾爱随笔录

逻辑回归能否用于检测最小二乘回归中的大误差？

机器算法验证 r 回归物流最小二乘指定错误

2022-03-22 09:45:03

我有以下线性模型：

w^{*} = {arg min}_{w} \sum_{i = 1}^{N} (Y_{i} - \sum_{j = 1}^{M} X_{i, j} \times w_{j})^{2}

$w^*=\text{arg min}_w\sum_{i=1}^N \bigg(Y_i-\sum_{j=1}^M X_{i,j}\times w_j\bigg)^2$

令和. $T \in N^*$ $e_i=|Y_i-\sum_{j=1}^M X_{i,j}\times w_j|$

可以使用逻辑回归来预测哪些误差将小于（即）并大于或等于（即）？ $T$ $e_i<T$ $T$ $e_i \ge T$

以下是使问题更清楚的更多信息：

$N$ 表示观察次数。我的数据具有以下属性：使用多元线性回归的误差直方图具有拉普拉斯分布。我的数据来自以 8 位表示的数字图像。是当前像素，是邻域像素。我想预测哪些像素产生的误差小于。我想知道我可以使用哪些 R 函数进行测试？不是很大，一般在 1 到 15 之间。 $Y_i$ $X_{ij}$ $T$ $T$

4个回答

我认为这只有在逻辑回归模型可以访问 OLS 模型中缺少的相关协变量时才有效。在这种情况下（即模型指定错误），可能存在观察到的响应值与预测值有很大差异的区域，并且逻辑回归模型将具有检测它们的必要信息。

您正在尝试使用逻辑回归来找到残差的可能结构。残差应该是非结构化的。如果逻辑回归发现某些东西，则模型指定错误。伟大的。

重要提示：逻辑回归寻找一个非常具体的结构。只有当残差以非常特定的方式被破坏时，您的方法才有效。

对于这种检测，请使用非线性回归。平方/对数残差的核或加法回归更有用。
更好的是：它们将允许您对整个方差进行建模。这回答了您关于大错误到底在哪里的问题。

在原始模型是异方差且异方差与协变量相关的情况下是可能的。例如，

$y_i \sim \text{N}(x_i^T\beta, \sigma^2x_{i,1}^2)$

其中第观测值的方差与第一个协变量的平方成正比。 $i^{th}$

可以想象，在非正态回归情况下，类似的结构本身不需要异方差性。但是，回归模型的默认假设通常涉及独立于回归变量的误差，并且误差的方差是恒定的。

另一方面，例如，如果进行泊松回归，您将脱离线性模型世界，但由于“误差”的方差与均值成正比，因此它与协变量有关，并且这样的逻辑回归会起作用——尽管它不会传达泊松回归的结果尚未传达的信息，泊松回归的结果完全指定了。在广义线性/加性模型框架中，完全指定了似然性，您可以使用您建议的逻辑回归将信息添加到初始回归的唯一方法是初始回归是否指定错误（通常通过忽略）残差的结构，例如， $y_i | x_i$

尽管如此，您的建议可能会揭示一些关于探索性分析中残差结构的信息。不过，我怀疑，通过或有效地离散残差通常会减少它们的信息内容，而不是有助于澄清分析——除非它可能是异常值分析。 $< T$ $\ge T$

在某些情况下，这样的事情可能会起作用 - 假设您可以为逻辑回归提供合适的预测器，但是

(i) 将价差二分法可能不如让价差连续有用

(ii) 我认为正式的假设检验对于评估模型假设不是一个好主意，因为它没有回答一个有用的问题（想象一下，在大样本中，传播的趋势非常小——它可能非常重要，但实际上并不重要就其对原始模型中的推理的影响而言）。更重要的是考虑效果大小（对我们的推理有多大影响？）而不是重要性（我们的样本量是否足够大以检测它？）。我们几乎从不完全满足假设，并且我们从测试我们已经知道的东西中没有任何收获——要么我们拒绝，它告诉我们的只是我们以前知道的，要么我们没有，它只告诉我们我们的样本量太小而无法检测到我们所知道的已经知道是这样。两者都没有告诉我们假设的失败对我们来说可能有多糟糕。

其它你可能感兴趣的问题

上一篇估计谱密度下一篇两项研究，相反的结果：我可以使用随机效应模型计算总体平均值吗？