在我的回归问题中,我有数字输入列“A”、“B”和“C”以及数字目标“Target”。
关系是:“C”越高,对“B”的影响越大——“C”越低,对“A”的影响越大,以预测“目标”。现在这种关系是非线性的,但更像是二次的。
哪些回归模型理论上能够在不手动添加交互项的情况下学习这种交互关系?
在我的回归问题中,我有数字输入列“A”、“B”和“C”以及数字目标“Target”。
关系是:“C”越高,对“B”的影响越大——“C”越低,对“A”的影响越大,以预测“目标”。现在这种关系是非线性的,但更像是二次的。
哪些回归模型理论上能够在不手动添加交互项的情况下学习这种交互关系?
任何通用逼近器都可以做到。您需要像这样的术语出现,因此和之间的交互就足够了。
如果您有一个通用逼近器,它可以(局部)在其公式中的某处逼近二次形式,从而在不显式乘以和的情况下为您提供交互。
然后,唯一重要的是选择一个通用逼近器。神经网络通常是通用逼近器,具有无限维内核空间的内核机器(例如径向基函数)也是如此。
在神经网络上,如果您有输入,那么使用两个隐藏层和正方形作为激活函数,您已经实现了交互的可能性。
考虑列向量:
传递初始特征的加权和,将它们平方,最后对平方项进行加权和。
MARS(多元自适应回归样条)能够自动检测解释变量之间的非线性交互,而无需在模型中手动添加它们
也许您可以添加一些高阶多项式交互项并使用套索回归?你可以从这些项的系数中得到一些线索。话虽如此,ML 算法通常用于预测而不是估计效果。
如果您需要明确和可解释的交互,您应该使用 2 级或 3 级的 MARS。如果您需要显式但不可解释的交互(在拟合模型后将无法提取交互特征),您可以使用带有多项式内核的 SVM。如果您对隐式和灵活的交互感到满意,正如 Firebug 所说,您可以使用通用逼近器,例如具有非线性激活的神经网络。我想您也可以为此目的使用带有径向基内核的 SVM,因为它也是一个通用逼近器,但是,我不完全确定该模型如何能够对交互进行建模(我专门针对此问题发布了一个问题:还没有回答)。