我是机器学习领域的初学者,我有一些小疑问,我没有找到任何合适的答案。如何选择预测未知数据的最佳模型。我已经学会了两种方法,我无法弄清楚哪一种是正确的。
换句话说,通过将数据拆分为训练和测试数据来训练您的模型,然后拟合模型以预测测试输出和错误,对数据进行混洗并在大约 100 个或更多周期内平均错误。这将为我们提供超过 100 个周期(python 方式随机状态)的平均误差(用于测试的 rmse)。现在要预测未知数据(验证模型),我应该考虑使用哪个模型进行预测。
1- rmse 更接近平均 rmse:选择一个模型,它报告的误差大约等于在 100 个周期内实现的平均误差来预测未知数据,并将其称为预测模型,或
2-最佳性能:从 100 个模型中选择一个模型来预测未知数据是最好的(测试的最低 rmse)?
我还在苦苦挣扎的另一件事是,如果将最低误差模型视为未知数据预测的模型,则通过保持 X_train 和 y_train 与最佳模型相同。如果我从同一个数据库中选择我的 X_test 和 y_test(仅 10%)超过 400 次不同的时间并预测错误,这会是过度拟合的预测吗?
提前致谢