数据挖掘 - 对于具有变量之间交互的大型嘈杂数据集，最好的机器学习算法是什么？ - 吾爱随笔录

数据挖掘机器学习神经网络决策树

2021-09-18 00:29:32

我最初的想法是神经网络，但我看不到神经网络如何正确预测变量之间的交互（即 x1 * x2），因为每个节点只是先前输入的总和？

决策树是否更适合捕捉变量之间的相互作用？

我的数据集很大，有 400 个特征和 5,000,000 个实例。所有数据都以百分位数表示，标签也是百分位数。数据集也很嘈杂（客户数据，预测成为回头客的可能性）。

3个回答

概率随机森林往往比其他算法在嘈杂的数据集上工作得更好。但是您使用的数据对于算法是否有效也起着重要作用。查看这篇论文概率随机森林以获取更多详细信息。快乐学习

集成方法，提升或装袋，通常提供优于其他方法的预测准确性。根据我的个人经验，我发现 GBM（即决策树上的梯度提升回归器）和 LightGBM（更快）通常给出非常准确的预测。

查看此图表以选择正确的估算器。

我会制作以下模型：

如果事情看起来很有希望，那就去那个方向。

其它你可能感兴趣的问题