可以组合两个预测建模案例(特征重叠)的训练集吗?

数据挖掘 预测建模
2022-03-07 15:55:06

假设我们有数据集 D1(列 A、B、C)和 D2(列 A、B、D)和目标变量 E。由于两个数据集都相当小,它们各自的预测模型表现不佳。为了提高预测性能,我可以/应该应用以下步骤吗?

  • 删除不常见的列(因此 A、B 和 E 列保留在两个数据集中)
  • 拆分火车和测试集中的每个数据集(交叉验证来评估,所以没有验证集)
  • 在 D1 和 D2 的训练集的组合上训练我们的预测模型
  • 在各自的测试集上评估 D1 和 D2 的测试集性能(使用 1 个模型而不是 2 个)

我认为这是允许的,但我不完全确定是否有任何(坏)影响。

1个回答

好吧,列与行之间存在明显的权衡。为什么不首先检查各个模型中 C 列和 D 列的重要性?它们的相关性越低,最好将它们扔掉并放在桌子上。

例如,您可以使用 sklearn 尝试随机森林,然后检查 feature_importances_。