寻找评估指标的深入知识

数据挖掘 分类 数据集 数据挖掘 评估 朴素贝叶斯分类器
2022-02-17 01:04:49

我正在处理一个不平衡的数据集。我的数据集中的实例总数为 1273,Yes 类为 174,No 类为 1099。因此不平衡比为 1:6。现在我知道Recall衡量我们在整个样本中可能错过了多少是类。我使用 Weka 对数据集进行分类。我正在使用Naive Bayes分类器并得到召回 0.413。根据回忆的定义,我可以找出我可能错过了多少是的课程。

1273*41.3% = 525.749

但是,我想知道我怎么会错过525yes 类本身的数量为 174 的 yes 类。

任何帮助,将不胜感激

1个回答

我认为这只是对召回定义的混淆。你可以根据正类更好地记住它。当我们谈论召回时,我们应该看看数据集中正类的实际数量。在您的情况下,如果您将“是”作为肯定类,则该类中有 174 个条目。简单来说,召回率测量预测中实际正类与总体中实际正类的比率,而精度测量预测中实际正类与总预测正类的比率。两种情况,只有分母发生变化。您的模型在总体中的 1273 条记录中给出 0.413 作为召回意义,其中 174 条是真正的正类条目,“x”数被归类为正类,其中 x/174 = .413。这给出了 x = .413*174 = 71.862。

这意味着您的模型在 174 个中只能将 71 个分类为“是”

我为此找到了这个出色的视频课程 - https://www.youtube.com/watch?v=2osIZ-dSPGE