预测建模——我们应该关心混合建模吗?

机器算法验证 机器学习 预测模型 重复测量 假设
2022-01-30 12:15:36

对于预测建模,我们是否需要关注随机效应和非独立观察(重复测量)等统计概念?例如....

我有来自 5 个直邮活动(在一年内发生)的数据,这些活动具有各种属性和一个购买标志。理想情况下,我会结合使用所有这些数据来构建一个模型,用于在活动期间给定客户属性进行购买。原因是购买事件很少,我想尽可能多地使用信息。给定客户有可能参与 1 到 5 个活动 - 这意味着记录之间不存在独立性。

使用时这是否重要:

1) 机器学习方法(例如树、MLP、SVM)

2)统计方法(逻辑回归)?

**ADD:**

我对预测建模的想法是,如果模型有效,请使用它。所以我从来没有真正考虑过假设的重要性。想到我上面描述的案例让我想知道。

以机器学习算法为例MLP and SVM这些已成功用于对二进制事件进行建模,例如我上面的示例,以及明显相关的时间序列数据。然而,许多使用的损失函数是可能性的,并且假设错误是独立同分布的。例如,R 中的梯度提升树使用从二项式(第 10 页gbm)派生的偏差损失函数

1个回答

我自己也一直在想这个,这是我的初步结论。如果有人能用他们的知识和关于这个主题的任何参考资料来补充/纠正这一点,我会很高兴。

如果您想通过检查统计显着性来测试有关逻辑回归系数的假设,则需要对观察结果之间的相关性进行建模(或以其他方式纠正非独立性),因为否则您的标准误差将太小,至少当您考虑在 -集群效应。但是即使有相关的观察,回归系数也是无偏的,所以使用这样的模型进行预测应该没问题。

在预测建模中,无论您使用逻辑回归还是其他方法,在训练模型时都不需要明确考虑相关性。但是,如果您想使用保持集来验证或计算样本外错误,则需要确保每个个体的观察结果仅出现在一组中,无论是训练还是验证,但不能同时出现。否则,您的模型将针对已经拥有一些信息的个人进行预测,并且您无法真正了解样本外分类能力。