数据挖掘 - 机器学习的最佳模型 - 吾爱随笔录

我是机器学习领域的初学者，我有一些小疑问，我没有找到任何合适的答案。如何选择预测未知数据的最佳模型。我已经学会了两种方法，我无法弄清楚哪一种是正确的。

换句话说，通过将数据拆分为训练和测试数据来训练您的模型，然后拟合模型以预测测试输出和错误，对数据进行混洗并在大约 100 个或更多周期内平均错误。这将为我们提供超过 100 个周期（python 方式随机状态）的平均误差（用于测试的 rmse）。现在要预测未知数据（验证模型），我应该考虑使用哪个模型进行预测。

1- rmse 更接近平均 rmse：选择一个模型，它报告的误差大约等于在 100 个周期内实现的平均误差来预测未知数据，并将其称为预测模型，或

2-最佳性能：从 100 个模型中选择一个模型来预测未知数据是最好的（测试的最低 rmse）？

我还在苦苦挣扎的另一件事是，如果将最低误差模型视为未知数据预测的模型，则通过保持 X_train 和 y_train 与最佳模型相同。如果我从同一个数据库中选择我的 X_test 和 y_test（仅 10%）超过 400 次不同的时间并预测错误，这会是过度拟合的预测吗？

提前致谢