预测多个因变量的方法

机器算法验证 多重回归 多元回归
2022-03-25 22:23:32

我有一种情况,我有观察值,每个观察值都有个自变量和个因变量。我想建立一个模型或一系列模型来获得对新观察的个因变量的预测。npqq

一种方法是构建多个模型,每个模型预测一个因变量。另一种方法是建立一个模型来一次性预测所有因变量(多元回归或PLS等)。

我的问题是:同时考虑多个 DV 是否会导致更强大/准确/可靠的模型?鉴于某些因变量可能相互关联,这一事实是否会妨碍或帮助单一模型方法?有没有我可以在这个主题上查找的参考资料?q

2个回答

您需要检查因变量之间的相关性(编辑:@BilalBarakat 的答案是正确的,残差在这里很重要)。如果全部或部分是独立的,您可以对每一个运行单独的分析。如果它们不是独立的,或者不是独立的,您可以运行多变量分析。这将最大限度地提高您的能力,同时将 I 型错误率保持在您的 alpha 级别。

但是,您应该知道,这不会使您的分析更加准确/稳健。这与您的模型是否比空模型更好地预测数据是一个不同的问题。事实上,发生了这么多事情,除非你有很多数据,否则你很可能会用一个新样本得到非常不同的参数估计值。甚至有可能测试版上的标志会翻转。很大程度上取决于 p 和 q 的大小及其相关矩阵的性质,但稳健性所需的数据量可能很大。请记住,尽管许多人使用“重要”和“可靠”作为同义词,但实际上并非如此。知道一个变量不独立于另一个变量是一回事,但另一件事完全是在您的样本中指定该关系的性质,因为它在总体中。进行两次研究并找到两次均显着的预测变量可能很容易,但参数估计值差异很大以具有理论上的意义。

此外,除非您正在进行结构方程建模,否则您无法很好地结合您关于变量的理论知识。也就是说,像 MANOVA 这样的技术往往是原始的经验性的。

另一种方法是利用您对手头问题的了解。例如,如果您对同一构造有多个不同的度量(您可以通过因子分析检查这一点),您可以将它们组合起来。这可以通过将它们转换为 z 分数并对它们进行平均来完成。也可以利用其他相关来源的知识(例如,共同原因或调解)。有些人对如此重视领域知识感到不舒服,我承认这是一个哲学问题,但我认为要求分析完成所有工作并假设这是最佳答案可能是错误的。

作为参考,任何好的多元教科书都应该讨论这些问题。Tabachnick 和 Fidell 被认为是对这一主题的简单而实用的处理。

与@gung 的第一段相矛盾(对不起!),您实际上应该检查多个模型中残差之间的相关性,而不是检查因变量之间的相关性。后者本身相关的事实并不能告诉您通过联合建模它们是否会改善您的估计。