分类中第 1 类和第 2 类错误的定义

数据挖掘 机器学习 分类
2021-09-19 03:47:25

为什么破产预测中定义的第一类和第二类错误不同于基于混淆矩阵的第一类和第二类错误?

在破产文献中

类型 1 错误:将破产公司预测为非破产公司。

类型 2 错误:将非破产公司预测为破产公司。

在混淆矩阵中

类型 1 错误:将负面案例(非破产公司)预测为负面案例(破产)。

类型 2 错误:将正面案例(破产公司)预测为负面(非破产)案例。

提前致谢。

1个回答

你说的是真的。两篇文章看起来相互矛盾,并得出相反的类型 1 和类型 2 错误。

我有好几次同样的困惑。

让我试着告诉你我的结论,尽管我不能 100% 确定我的结论是正确的。

类型 1 错误的定义取决于误报。类型 2 错误的定义取决于 False Negative。

以上两种说法总是正确的。

那为什么会出现混乱呢?

零假设和替代假设函数的定义引起了混淆。

在统计学中,通常空假设是一种大多数人都接受且不包含太多信息的假设,而替代假设是一种扰乱现状的假设,如果为真,那就是一个大新闻。

因此,在您的银行业务示例中,您可以考虑

  • 空假设 = 银行正常(溶剂)

  • 替代假设 = 银行破产

所以,如果这是定义,那么破产文献是正确的。

但是,通常在机器学习/数据科学中,我们不会定义两个假设,我们只是将问题定义说成是预测银行是否破产。在这种情况下,我们的

  • 真正的肯定是银行破产了,我们预测它是破产的。
  • 误报是 Bank is Solvent,我们将其预测为破产。
  • 假阴性是银行破产,我们将其预测为 Solvent。

因此,再次由上述陈述,混淆矩阵的定义也是正确的。

那么,为什么会出现矛盾的错误呢?答案只是我们定义假设的方式不同。

在银行业文献中,他们将 true 定义为有偿付能力的银行,将 false 定义为破产的银行。在混淆矩阵中,我们假设 true 为破产银行,false 为偿付能力银行。

请查看以下内容以获取更详细的说明。

https://www.khanacademy.org/math/ap-statistics/tests-significance-ap/error-probabilities-power/v/introduction-to-type-i-and-type-ii-errors

https://www.abtasty.com/blog/type-1-and-type-2-errors/