假设我们有数据集 D1(列 A、B、C)和 D2(列 A、B、D)和目标变量 E。由于两个数据集都相当小,它们各自的预测模型表现不佳。为了提高预测性能,我可以/应该应用以下步骤吗?
- 删除不常见的列(因此 A、B 和 E 列保留在两个数据集中)
- 拆分火车和测试集中的每个数据集(交叉验证来评估,所以没有验证集)
- 在 D1 和 D2 的训练集的组合上训练我们的预测模型
- 在各自的测试集上评估 D1 和 D2 的测试集性能(使用 1 个模型而不是 2 个)
我认为这是允许的,但我不完全确定是否有任何(坏)影响。