我有两个正在实现的分类器,它们都是非确定性的,因为当您多次运行它们时,它们都可以给出不同的结果(FPR 和 TPR)。我想比较这两种算法来评估它们的性能。我该怎么做?通常人们最常做的是运行分类器,直到他们得到最好的 FPR 和 TPR 值,然后他们发布结果。但是这种方法的问题在于它可能不能很好地表示这种分类器的性能。到目前为止,这是我计划做的,但不知道这是否正确:
- 将我的评估数据拆分为训练和测试,训练后,使用测试数据进行预测,得到 FPR 和 TPR,然后再重复这个预测 99 次,形成 100 个 FPR 和 TPR 读数,然后取平均值。要获得 ROC,请使用平均 FPR 和 TPR。或者
- 对数据使用 k=3 或 10 的 k 折交叉验证,这将为 TPR 和 FPR 返回 3 或 10 个不同的值,然后我将取平均值以获得平均 FPR 和 TPR,并将此平均值用于绘制平均 ROC。
我上面说的两种方法哪一种可以?如果他们都错了,你建议我怎么做。谢谢。