数据挖掘 - 比较非确定性二元分类器 - 吾爱随笔录

我有两个正在实现的分类器，它们都是非确定性的，因为当您多次运行它们时，它们都可以给出不同的结果（FPR 和 TPR）。我想比较这两种算法来评估它们的性能。我该怎么做？通常人们最常做的是运行分类器，直到他们得到最好的 FPR 和 TPR 值，然后他们发布结果。但是这种方法的问题在于它可能不能很好地表示这种分类器的性能。到目前为止，这是我计划做的，但不知道这是否正确：

将我的评估数据拆分为训练和测试，训练后，使用测试数据进行预测，得到 FPR 和 TPR，然后再重复这个预测 99 次，形成 100 个 FPR 和 TPR 读数，然后取平均值。要获得 ROC，请使用平均 FPR 和 TPR。或者
对数据使用 k=3 或 10 的 k 折交叉验证，这将为 TPR 和 FPR 返回 3 或 10 个不同的值，然后我将取平均值以获得平均 FPR 和 TPR，并将此平均值用于绘制平均 ROC。

我上面说的两种方法哪一种可以？如果他们都错了，你建议我怎么做。谢谢。