我最初的想法是神经网络,但我看不到神经网络如何正确预测变量之间的交互(即 x1 * x2),因为每个节点只是先前输入的总和?
决策树是否更适合捕捉变量之间的相互作用?
我的数据集很大,有 400 个特征和 5,000,000 个实例。所有数据都以百分位数表示,标签也是百分位数。数据集也很嘈杂(客户数据,预测成为回头客的可能性)。
我最初的想法是神经网络,但我看不到神经网络如何正确预测变量之间的交互(即 x1 * x2),因为每个节点只是先前输入的总和?
决策树是否更适合捕捉变量之间的相互作用?
我的数据集很大,有 400 个特征和 5,000,000 个实例。所有数据都以百分位数表示,标签也是百分位数。数据集也很嘈杂(客户数据,预测成为回头客的可能性)。
概率随机森林往往比其他算法在嘈杂的数据集上工作得更好。但是您使用的数据对于算法是否有效也起着重要作用。查看这篇论文概率随机森林以获取更多详细信息。快乐学习
集成方法,提升或装袋,通常提供优于其他方法的预测准确性。根据我的个人经验,我发现 GBM(即决策树上的梯度提升回归器)和 LightGBM(更快)通常给出非常准确的预测。
查看此图表以选择正确的估算器。
我会制作以下模型:
如果事情看起来很有希望,那就去那个方向。