对于预测建模,我们是否需要关注随机效应和非独立观察(重复测量)等统计概念?例如....
我有来自 5 个直邮活动(在一年内发生)的数据,这些活动具有各种属性和一个购买标志。理想情况下,我会结合使用所有这些数据来构建一个模型,用于在活动期间给定客户属性进行购买。原因是购买事件很少,我想尽可能多地使用信息。给定客户有可能参与 1 到 5 个活动 - 这意味着记录之间不存在独立性。
使用时这是否重要:
1) 机器学习方法(例如树、MLP、SVM)
2)统计方法(逻辑回归)?
**ADD:**
我对预测建模的想法是,如果模型有效,请使用它。所以我从来没有真正考虑过假设的重要性。想到我上面描述的案例让我想知道。
以机器学习算法为例MLP and SVM
。这些已成功用于对二进制事件进行建模,例如我上面的示例,以及明显相关的时间序列数据。然而,许多使用的损失函数是可能性的,并且假设错误是独立同分布的。例如,R 中的梯度提升树使用从二项式(第 10 页gbm
)派生的偏差损失函数。