交互仅在回归的情况下有用吗?

机器算法验证 机器学习 相互作用 术语
2022-03-12 03:08:14

我一直在回归的背景下阅读术语交互。我们是否还应该考虑与不同模型的交互,例如 knn 或 svm?

如果有50,100甚至更多功能,让我们说1000观察 找到有用交互的常用方法是什么?尝试所有组合?还是只使用有意义的组合?

3个回答

在回归模型中明确需要交互,因为该公式本身不包括任何交互。更准确地说,回归模型的输入总是线性的,而交互XiXj是特征的非线性组合。

看到这一点的最简单方法是通过 XOR 问题,没有任何交互的回归模型无法解决这个问题,因为它需要非线性组合。

另一方面,KNN 和 SVM(以及许多其他模型)是通用函数逼近器。这意味着,它们不仅可以以线性方式组合输入,还可以以任何可能的非线性方式组合输入。如果给定足够的层或合适的内核,它们基本上可以完全根据需要“创建”自己的交互。但是,如果您知道或期望特定的交互很重要,您仍然可以将它们用作输入来引导模型朝着正确的方向发展。

类似地,基于树的模型可以解释为仅由交互组成。基本上,基于树的模型中的拆分会创建与所有先前变量的特定交互。

因此,为了决定使用哪些交互,对于足够“高功率”的模型(即那些是通用函数逼近器的模型),您不需要它们,您可以让模型发挥自己的魔力。对于其他型号,这取决于。有一些技术可用于指导决策,例如CHAID或逐步回归。CHAID 还适用于大量特征,对于逐步回归,它可能会在可能的交互次数中丢失。鉴于如果你有N特点,有2N可能的交互(不仅包括双向交互,还包括高阶交互)。

不。

实际上,您可以认为具有多项式内核的 SVM 正在添加所有特征之间的所有(高阶)交互。例如,如果我们有两个特征(x1,x2), 具有二阶多项式的 SVM 正在做(x12,x22,x1x2).

SVM 被称为 Kernel Trick,因为它隐含地进行多项式基扩展,计算复杂度要低得多。考虑对 10 个特征进行 10 阶多项式展开,手动展开它会有1010列。但是使用内核技巧,我们可以轻松做到。

因此,不仅交互已广泛应用于其他模型。除了交互之外,其他模型试图更多地与特征工程结合。不是将两列相乘,而是派生出更复杂的特征。

改善调整 R 平方的交互作用、似然回归的 BIC(或者 AICc 和其他)、VIF 和 ANOVA 的 F 统计量,后者没有使用其部分概率判断为无贡献的单个参数。

同样非常重要但未被问到的是,重新参数化可以显着改善单个变量的影响及其相互作用。但是,BIC、AIC 和其他似然质量测量对于比较不同的重新参数化是无效的,为此目的而留下调整后的 R 平方、VIF 和 ANOVA 的 F 统计量。