训练数据的良好随机随机状态对模型真的有好处吗?

数据挖掘 机器学习 神经网络 喀拉斯 scikit-学习
2022-03-03 23:08:47

我正在使用 keras 来训练二元分类器神经网络。为了对训练数据进行洗牌,我使用了 scikit-learn 的洗牌功能。
我观察到,对于某些 shuffle_random_state(种子为shuffle()),网络给出了非常好的结果(~86% 的准确度),而在其他的则没有那么多(~75% 的准确度)。所以我为 1-20 shuffle_random_states 运行模型并选择为生产模型提供最佳精度的 random_state。
我想知道这是否是一种好方法,并且通过那些好的 shuffle_random_state 网络实际上学习得更好?

1个回答

如果这是拆分是训练/验证拆分(不是保留测试集),那么您应该进行交叉验证。如果您尝试“恰到好处”地拆分它,您将对模型在这组特征和超参数方面的性能过于乐观。无论您的拆分如何,交叉验证都会为您提供更准确的描述。如果这是针对训练/测试拆分(测试是保留测试集),这是一个非常糟糕的做法,因为您正在告知您如何根据测试集的性能进行拆分的决定。