机器算法验证 - 问题非常适合线性回归的线索 - 吾爱随笔录

问题非常适合线性回归的线索

机器算法验证回归数据转换模型线性的回归策略

2022-03-03 01:28:59

我正在使用Montgomery、Peck 和 Vining 的线性回归分析简介来学习线性回归。我想选择一个数据分析项目。

我有一个天真的想法，只有当人们怀疑解释变量和响应变量之间存在线性函数关系时，线性回归才适用。但似乎没有多少现实世界的应用程序符合这个标准。然而，线性回归是如此普遍。

如果一个有经验的统计学家站在我的立场上，他们会考虑一个项目的哪些方面，寻找一个非常适合线性回归的问题+数据。

4个回答

我有一个天真的想法，只有当人们怀疑解释变量和响应变量之间存在线性函数关系时，线性回归才适用。但似乎没有多少现实世界的应用程序符合这个标准。

这不是对“线性回归”中什么是“线性”的正确理解。

不是两者之间的关系 $y$ 和 $x$ 被假定为线性形式的（尽管所有基本示例都可能误导您）。

“线性”是指模型在参数上是线性的，而参数之间的关系是非线性的。 $y$ 还有一些 $x$ 当然可以这样建模。

这里有一个带有单个预测变量的示例，但曲线模型更常作为多元回归拟合，其中预测变量的多个函数（x 变量、自变量）可能出现在回归中，这提供了很大的灵活性。例如，这包括多项式回归。在此处查看一些讨论和示例。

但是，如果我们考虑到可以转换预测变量以拟合曲线关系的事实，则参数的线性也确实对应于那些转换的预测变量的线性。

此外，许多问题接近于线性（至少在所考虑的值范围内），或者噪音太大以至于任何轻微的曲率都无法辨别，并且用于增加或减少关系的各种简单模型可能会 -在这种情况下，线性选择可能既合适又最容易拟合和理解。

如果一个有经验的统计学家站在我的立场上，他们会考虑一个项目的哪些方面，寻找一个非常适合线性回归的问题+数据。

我可能会寻找一个应用回归的问题的唯一时间是当我试图找到一个好的教学例子时。在实际从事统计工作（而不是解释或教授）时，我选择适合感兴趣的问题（和数据特征）的方法，而不是选择适合方法的数据。

例如，想象一个木匠。木匠不会拿起辐条并说“我可以用它做什么？”。相反，木匠有一个问题要解决，在考虑问题的特征时（“我想做什么？”和“我用的是什么木头？”等等……）特定的工具可能是比其他人更相关。有时可用的工具可能会限制或指导选择（如果您没有辐条，您可能不得不使用其他东西......或者您可能只需要购买辐条）。

但是，让我们假设您有一个袖珍统计学家帮助您，并且您正在尝试找到适合线性回归的问题。然后他们可能会建议您考虑各种回归假设以及它们何时重要。我会提到几件事。

如果您只是对拟合 y 和某个单变量（可能已转换）x 之间的关系感兴趣，那么大多数假设对您来说不一定重要（高斯-马尔可夫定理可能具有一定的相关性）。你会寻找一个你认为 $E(y|g(x))$ 是近似线性的 $g(x)$ 对于一些-已知- $g$ （也就是说，它假设我们知道我们想要的关系的函数形式）。写作 $x^*=x$ , 我们需要 $E(y|x^*)=a+bx*$ 至少近似正确。

如果您能够使用多元回归，即使这不是一个特别大的问题，因为可以使用（例如）三次回归样条来拟合相当普遍的关系。

我建议您随着时间的推移避开数据，除非您了解虚假回归的问题；坚持横截面问题。

如果你只处理一个 $x$ 我希望你想要一个连续的而不是分类的 $x$ .

您不希望在 $x$ 除非您对测量值的期望条件感兴趣。

如果您对假设检验、置信区间或预测区间感兴趣，那么更多通常的回归假设可能很重要（但有些替代方案不做这些假设，在某些情况下，至少某些假设可能不会无论如何都特别重要）。

因此，至少要尝试了解的一件事是，在推导您正在使用的推理程序时所做的那些假设是什么，以及它们在您的特定问题中的重要性（例如，在执行通常的假设检验时，正态性是一个假设，但在大样本中，该假设可能并不重要；另一方面，恒定方差的假设可能更成问题）。

有许多帖子讨论了回归假设，还有一些帖子讨论了何时需要进行回归假设，以及它们的重要性，甚至考虑它们的顺序。

除了上面的优秀答案外，线性模型还有一般要求才能合理地工作，主要与 $Y$ . $Y$ 在没有会过度影响模型拟合的极端值的意义上，需要表现良好。第二， $Y$ 幸运的是，需要对模型进行转换，以便模型具有可加性的希望，并且残差是高斯的（如果进行推理）。分析师经常犯错误，尝试超过 2 种转换 $Y$ 以满足模型假设，这会扭曲最终的推断。更简单的说法是，我们需要已经了解 $Y$ 分配（条件为 $X$ ）好。在多年的经验中，您会发现某些变量（例如血压）在线性模型中往往表现良好，而其他变量（例如血液化学测量）则不然。

所有这些都与仅假设的半参数模型形成对比 $Y$ 是序数的，对奇怪的值完全健壮，不关心如何 $Y$ 被改造。比例赔率和比例风险模型是模型的两个示例类别。

@Glen_b 给出了一个很好的答案，但如前所述，没有完成。

所以，关于你的最后一个问题：

我想一个有经验的统计学家不会问这个问题。正如 Glen 所指出的，问题决定了要使用的工具，而不是相反。

如果我想学习线性回归之类的技术，我会使用已经工作过的例子——但是那些有真实数据的例子，而不是为了让事情变得简单而编造的数据。诸如Regression Modeling by Example之类的书可以提供指导。

但是，查看回归问题的第一步是确定线性回归实际上是否合适。

许多回应都涉及需要满足的假设：残差的线性、预测变量范围内的方差同质性、没有可能影响回归线的极值以及独立观察。使用大多数回归程序可以很容易地生成残差图，并且一些软件包会自动提供一些（SAS）。

一个人谈到了改造 y。这在某些领域是常见的做法，但这种做法会导致有偏见且可能无法解释的结果。当您尝试将结果反向转换为原始指标时，就会出现偏差。最好转向另一种类型的回归，其残差模式与残差的分布假设相匹配。请参阅 Agresti 的分类数据分析简介中的第 3 章，其中他介绍了链接的概念。许多回归教科书也介绍了广义线性模型。

其它你可能感兴趣的问题

上一篇计算 F-Score，哪个是“正”类，多数类还是少数类？下一篇使用 R 的 glmnet 和 Python 的 scikit-learn 进行岭回归有什么区别？