给定一个我想训练机器学习算法的数据集。数据分为训练数据、验证数据和测试数据。
我现在成功地训练了我的算法,使其能够很好地处理训练数据,并且使用验证集进行验证也很有希望。然而,当应用测试数据时,模型表现不佳。
我现在陷入了两个选择:
- 扔掉所有东西,用相同的数据集重新开始。然而,这被比作p-hacking。
- 将数据集扔掉,因为它现在已被烧毁。这可能会扼杀我的项目,或者因为我需要重新收集数据而变得非常昂贵,这甚至可能是不可能的。
当在我的测试集上应用训练模型失败时,我的数据集最终会被烧毁吗?
相关奖励:我是否可以申请某种形式的Bonferroni 校正来继续重用数据集,以防我烧毁数据集?