数据挖掘 - 训练数据的良好随机随机状态对模型真的有好处吗？ - 吾爱随笔录

训练数据的良好随机随机状态对模型真的有好处吗？

数据挖掘机器学习神经网络喀拉斯 scikit-学习

2022-03-03 23:08:47

我正在使用 keras 来训练二元分类器神经网络。为了对训练数据进行洗牌，我使用了 scikit-learn 的洗牌功能。
我观察到，对于某些 shuffle_random_state（种子为shuffle()），网络给出了非常好的结果（~86% 的准确度），而在其他的则没有那么多（~75% 的准确度）。所以我为 1-20 shuffle_random_states 运行模型并选择为生产模型提供最佳精度的 random_state。
我想知道这是否是一种好方法，并且通过那些好的 shuffle_random_state 网络实际上学习得更好？

1个回答

如果这是拆分是训练/验证拆分（不是保留测试集），那么您应该进行交叉验证。如果您尝试“恰到好处”地拆分它，您将对模型在这组特征和超参数方面的性能过于乐观。无论您的拆分如何，交叉验证都会为您提供更准确的描述。如果这是针对训练/测试拆分（测试是保留测试集），这是一个非常糟糕的做法，因为您正在告知您如何根据测试集的性能进行拆分的决定。

其它你可能感兴趣的问题

上一篇1x1 卷积，与全连接层等价下一篇外行对 PDF 和 CDF 的描述