数据挖掘 - 是否可以通过仅考虑准确性来确定最佳神经网络分类器 - 吾爱随笔录

是否可以通过仅考虑准确性来确定最佳神经网络分类器

数据挖掘机器学习神经网络深度学习

2022-02-13 04:12:12

下面是 6 个不同神经网络的训练和测试集的准确度图。是否可以说，以下哪个神经网络分类器更好？有这个鲜为人知的信息（按时期图的训练和测试精度）？. 我个人认为，第一个分类器（左上角）更好，因为它表明测试数据的准确性随着 epoch 数量的增加而稳定。

1个回答

在选择最佳分类器之前，您应该考虑几个问题。

精度、召回率和 F 分数

强烈建议您检查精度、召回率和 F 分数指标以及准确性。那是因为如果您的数据集标签不平衡（例如，当 90% 的标签是正面的而只有 10% 的标签是负面的时）仅仅考虑准确性可能会误导您。例如，在这种情况下，如果您选择一个始终输出 1 的分类器，它将具有 90% 的准确率，但它无法在未见过的数据上正常工作。在这种情况下，精度、召回率和 F 分数就派上用场了。

验证和测试集

除了测试集之外，您还应该留出一个验证集并使用该集调整模型的超参数。如果您使用测试集来调整模型的超参数，您不能期望您的模型能够很好地泛化，因此它在看不见的数据上表现不佳。

过拟合和欠拟合

当您的模型在训练数据集上表现出色但在验证和测试集上表现不佳时，就会发生过度拟合。当您的模型在训练数据集上表现不佳时，就会发生欠拟合。为确保您没有欠拟合或过拟合，您应该同时检查模型在训练和验证数据集上的性能。

所以，首先你应该改变你的准确度图，让它显示训练和验证损失。然后，我们考虑选择最佳模型。如果在一些 epoch 之后，训练分数仍然很低，那么你就欠拟合了。如果训练分数远高于验证分数，则说明过度拟合。最好的情况是训练和验证分数在足够的时期后接近。

其它你可能感兴趣的问题

上一篇如何将图像文件夹转换为 csv 文件？下一篇XGBOOST（sklearn 接口）回归错误