我目前正在尝试优化我的模型上的一些参数(15000 个样本)。我发现损失函数的差异相对较大,为 2%-10%,这使得很难确定哪个参数是最好的。这似乎是基于随机数生成器如何将数据拆分为训练/测试集。
我试过了 :
简历5倍
拆分 75%
修复随机种子确实有帮助(或使用相同的测试集),但我担心我会根据测试集中的样本得到这样的变化。“最佳参数”如此依赖于数据的特定洗牌似乎令人担忧,我担心它如何转化为现实世界的使用。
人们对这种情况的处理方式是什么?我在想我可以多次重复每个测试并取平均值,但这具有非常大的计算成本并且似乎非常低效。