我正在研究 GLM 模型(OLS、Logistic 回归、零膨胀等)之间的区别,这些模型是确定性的,因为我们可以准确地推断出参数,以及一些 CART 模型(随机森林、LightGBM、CatBoost 等)。基于随机预测。
我听说对于随机模型,我们应该分成训练和测试以避免过度拟合,这在确定性模型中不会发生,因为它们使用线性规划来寻找最佳参数。
我想开始一些关于它的讨论。
我的意见是,这是真的。确定性模型只是求解方程,它根本不应该过度拟合数据,它不同于基于随机性进行预测的随机模型。
但是我发现每门课程都说要拆分每个数据集,无论其是否具有确定性。