对于具有变量之间交互的大型嘈杂数据集,最好的机器学习算法是什么?

数据挖掘 机器学习 神经网络 决策树
2021-09-18 00:29:32

我最初的想法是神经网络,但我看不到神经网络如何正确预测变量之间的交互(即 x1 * x2),因为每个节点只是先前输入的总和?

决策树是否更适合捕捉变量之间的相互作用?

我的数据集很大,有 400 个特征和 5,000,000 个实例。所有数据都以百分位数表示,标签也是百分位数。数据集也很嘈杂(客户数据,预测成为回头客的可能性)。

3个回答

概率随机森林往往比其他算法在嘈杂的数据集上工作得更好。但是您使用的数据对于算法是否有效也起着重要作用。查看这篇论文概率随机森林以获取更多详细信息。快乐学习

集成方法,提升或装袋,通常提供优于其他方法的预测准确性。根据我的个人经验,我发现 GBM(即决策树上的梯度提升回归器)和 LightGBM(更快)通常给出非常准确的预测。

查看此图表以选择正确的估算器。

我会制作以下模型:

  1. 零基线模型
  2. 具有最高度相关特征的线性回归模型
  3. 创建多项式特征并进行特征选择以仅选择前 10 或 20 个特征并尝试使用线性回归模型的特征。
  4. #3 但有岭回归
  5. 具有原始特征的 LightGBM 模型
  6. 如果你认为你仍然可以挤出一些性能并且值得付出时间/精力的权衡,那就转向神经网络。只要你有几层和相当数量的节点和非线性变换(例如RELU),它应该能够拾取交互。

如果事情看起来很有希望,那就去那个方向。