数据挖掘 - 寻找评估指标的深入知识 - 吾爱随笔录

寻找评估指标的深入知识

数据挖掘分类数据集数据挖掘评估朴素贝叶斯分类器

2022-02-17 01:04:49

我正在处理一个不平衡的数据集。我的数据集中的实例总数为 1273，Yes 类为 174，No 类为 1099。因此不平衡比为 1:6。现在我知道Recall衡量我们在整个样本中可能错过了多少是类。我使用 Weka 对数据集进行分类。我正在使用Naive Bayes分类器并得到召回 0.413。根据回忆的定义，我可以找出我可能错过了多少是的课程。

1273*41.3% = 525.749

但是，我想知道我怎么会错过525yes 类本身的数量为 174 的 yes 类。

任何帮助，将不胜感激

1个回答

我认为这只是对召回定义的混淆。你可以根据正类更好地记住它。当我们谈论召回时，我们应该看看数据集中正类的实际数量。在您的情况下，如果您将“是”作为肯定类，则该类中有 174 个条目。简单来说，召回率测量预测中实际正类与总体中实际正类的比率，而精度测量预测中实际正类与总预测正类的比率。两种情况，只有分母发生变化。您的模型在总体中的 1273 条记录中给出 0.413 作为召回意义，其中 174 条是真正的正类条目，“x”数被归类为正类，其中 x/174 = .413。这给出了 x = .413*174 = 71.862。

这意味着您的模型在 174 个中只能将 71 个分类为“是”

我为此找到了这个出色的视频课程 - https://www.youtube.com/watch?v=2osIZ-dSPGE

其它你可能感兴趣的问题

上一篇为什么每次运行后我得到不同的预测结果？下一篇测试集上的概率分布