多元多元回归的变量选择技术

机器算法验证 r sas
2022-03-30 08:07:09

我有兴趣了解多元多元回归的变量选择技术。(数据中有超过 1 个响应变量)

我所知道的多元回归的常用技术是向后或向前逐步回归。这些技术可以推广到更高的维度吗?

Rgds。

4个回答

Roman Kh 警告您不要使用逐步方法是正确的。关于他们的陷阱的最佳讨论之一是 Peter Flom 的论文Stop Using Stepwise

http://www.lexjansen.com/pnwsug/2008/DavidCassell-StoppingStepwise.pdf

也就是说,每个统计学家和他们的兄弟都有一篇论文或变量选择的方法——他们是军团。就您而言,这些都集中在具有单一响应功能的选择上。我不知道有人开发了专门用于多个因变量的算法,并且很高兴被告知这是不正确的,有人在某处有协议。

方法论的解决方案遵循需求,如果没有需求,那么没有人会打扰。迄今为止,充其量似乎对具有多种响应功能的选择程序的需求有限。我真的不明白为什么几乎所有的建模项目都坚持选择一个响应函数,而多个函数会给出一个更好、信息更丰富、更有洞察力的答案。这有很多可能的原因,但在我看来,主要的解释必须包括一种根深蒂固的偏见,即支持“奥卡姆剃刀式”的单一响应模型;缺乏对多重反应模型的使用和解释的培训,以及我们在“有限理性”中认知局限的必然后果。” 尽管所有主要的统计软件包都提供 MANOVA 或典型相关例程,但事实确实如此。他们都缺乏的是针对多个 DV 和大量候选特征的“类似 LASSO”的算法。

Grice 和 Iwasaki 的一篇论文对这些观察结果提供了丰富的信息,该论文将 ANOVA 与 MANOVA 进行了比较,讨论了每种方法在假设检验、推理和解释方面的优势和缺陷。请注意,它们没有解决您与变量选择有关的具体问题。

http://psychology.okstate.edu/faculty/jgrice/psyc6813/Grice_Iwasaki_AMR.pdf

本文提出了一个 OP 没有解决的基本问题:模型的目标。它是否像机器学习问题一样用于假设检验和推理或黑盒预测?这些确实是具有不同解决方案的独立挑战,很大程度上取决于分析的信息量。对于相对少量的数据,经典的推理方法是现实的。如果面对包含许多甚至大量候选预测变量的大量信息,那么经典方法就会失效。

鉴于此,具有多个因变量的变量选择的限制情况是什么?当然,人们总是可以选择将多个 DV 组合成一个先验组合。在这种情况下,变量选择过程将与任何单个响应函数相同。

当对真正的多个 DV 进行建模时,最简单和最明显的例子是拥有如此有限的信息,而这些信息拥有如此少的可能特征,以至于变量选择变得毫无意义,从而允许像 Grice 和 Iwasaki 论文中那样准备好拟合典型相关或 MANOVA。这种情况与使用仔细、经典的假设检验的博士论文或论文是一致的。

对于存在大量候选预测变量的更可能的情况——使变量选择步骤不可避免——一个蛮力解决方案可能是为每个因变量拟合一个单独的选择过程。这种方法不应该被推荐,并且存在缺陷,因为它忽略了真正的多变量方法所固有的线性组合或复合,并提出了一个严格和最终的变量选择过程将如何工作的问题。

似乎经典的多元统计和分析无法解决具有大量甚至大量候选预测变量和/或“大”数据的多重响应函数的变量选择问题。在我看来,这需要采用近似的变通方法,包括扩展 Breiman 的随机森林例程。Breiman 讨论了使用 RF 作为变量选择方法,但从未说过不能使用 CART 以外的多变量工具作为驱动算法的引擎。Breiman 的 RF 经典方法是有限的,因为它是在 90 年代开发的,仅用于单个 CPU 上的几千个候选预测器。在当今的应用世界中,访问用于处理大量数据的大规模并行平台 (MPP) 以及“分而治之”的例程意味着一个人不再局限于他的经典解决方案。有关“D&C”例程的讨论,请参阅 Chen 和 Minge 的这篇论文用于分析超大数据的分而治之的方法

http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf

“D&C”方法如何在 MPP 上针对多个响应函数和数千或数十万(或更多)候选预测变量(非结构化信息的常见挑战)工作的一个示例是插入 MANOVA 或典型相关,运行数百万个“迷你模型”并在后端聚合输出以获得集成预测以及真正多元变量相对重要性的排名。这可以在一个合理大小的 MPP 上在几个小时内完成。鉴于这种方法的近似性质,建模者被迫放弃任何寻找最终的、简化的或固定的数学上唯一预测变量集的概念。但是请注意,这将有助于消除大量候选变量。

在这一点上,问题变成了这个解决方案本身是否是目的——是客观的预测还是推论?如果是预测,这可能是最终产品,保留数百万个迷你模型的结果将使它们以后用于对新数据进行评分。如果推理是目标,那么这不是分析的结束,在建模的其他阶段进一步细化变量将进一步减少变量,并消除隐藏在排名中的不可避免的冗余和纯线性组合。在 D&C 例程开发的这个阶段,对于如何最好地进行推理建模的其他阶段似乎没有任何好的答案。

无论如何,这些只是一些想法。希望他们有帮助。

著名的教科书《统计学习导论》对这个主题有很好的处理。免费 PDF中的第 6 章易于阅读。

本章的结构如下所示: 在此处输入图像描述

逐步回归是有争议的,并且可能导致模型错误指定。其他技术是 Lasso 和 Ridge 回归,以及最小角度回归。

偏最小二乘法 (PLS) 旨在采用多变量/单变量响应变量。查看 "pls" r 包以获取更多详细信息。