我有 20 个不同人的数据,并且正在根据每个人的数据训练一个模型(例如,具有相同超参数的神经网络);所以这给了我20个模型。
我选择使用 RMSE 来评估性能。然而,由于训练数据被打乱,计算出的 RMSE 是不确定的,因此会振荡。所以我认为将每个模型运行 10 次并对结果进行平均,即 RMSE,可以让我更好地估计性能。但这是针对单个人/模型的。我如何将所有内容(即所有 20 个模型)的性能组合到一个度量中?
将 20 个模型中的每一个运行 10 次,总共 200 个 RMSE 值,然后取平均值?还是先计算每个人的平均值,然后再计算这些平均值的平均值?
也许不同的方法更好?最终目标是比较几个模型(例如 NN 与 SVM)。