数据挖掘 - 可以组合两个预测建模案例（特征重叠）的训练集吗？ - 吾爱随笔录 - 问答

可以组合两个预测建模案例（特征重叠）的训练集吗？

数据挖掘预测建模

2022-03-07 15:55:06

假设我们有数据集 D1（列 A、B、C）和 D2（列 A、B、D）和目标变量 E。由于两个数据集都相当小，它们各自的预测模型表现不佳。为了提高预测性能，我可以/应该应用以下步骤吗？

删除不常见的列（因此 A、B 和 E 列保留在两个数据集中）
拆分火车和测试集中的每个数据集（交叉验证来评估，所以没有验证集）
在 D1 和 D2 的训练集的组合上训练我们的预测模型
在各自的测试集上评估 D1 和 D2 的测试集性能（使用 1 个模型而不是 2 个）

我认为这是允许的，但我不完全确定是否有任何（坏）影响。

1个回答

好吧，列与行之间存在明显的权衡。为什么不首先检查各个模型中 C 列和 D 列的重要性？它们的相关性越低，最好将它们扔掉并放在桌子上。

例如，您可以使用 sklearn 尝试随机森林，然后检查 feature_importances_。

其它你可能感兴趣的问题

上一篇随机森林回归的过度拟合结果下一篇我可以通过要求选择发生 > 90% 的时间来在拆分之前应用特征选择吗