我试图用 GLM 解释一个计数变量和一个连续变量 > 0,使用 R。为了提高回归的质量,我想添加一些对模型有用的交互。由于我是机器学习的新手,我想知道 RF 和 GBM 是否可以帮助我确定有用的交互。我看到interact.gbm 可以评估非线性模型中交互作用的相对强度。问题是:添加具有重要交互强度的变量以减少 MSE/偏差是否“在数学上”正确?
谢谢 !
我试图用 GLM 解释一个计数变量和一个连续变量 > 0,使用 R。为了提高回归的质量,我想添加一些对模型有用的交互。由于我是机器学习的新手,我想知道 RF 和 GBM 是否可以帮助我确定有用的交互。我看到interact.gbm 可以评估非线性模型中交互作用的相对强度。问题是:添加具有重要交互强度的变量以减少 MSE/偏差是否“在数学上”正确?
谢谢 !
有好几次,变量之间的交互作用确实会改善模型的偏差。当一个自变量对目标的影响取决于其他自变量的值时,尤其如此。 我认为这样做在数学上没有任何错误。
例如:假设您试图将收入预测为广告的函数。在此示例中,可以合理地假设电视上增加一个广告单元对收入的影响将取决于 Facebook 上现有的广告水平(例如)。真正的数据生成函数(如果您可以访问它)可能类似于:其中是在电视等上显示的#广告。如果您使用为模型提供处理此类交互项的机会,您将更接近于对真实数据生成函数进行建模。
然而,添加更多特征会增加模型的复杂性(容量),您可能必须明智地使用正则化来防止过度拟合