分类中第 1 类和第 2 类错误的定义
数据挖掘
机器学习
分类
2021-09-19 03:47:25
1个回答
你说的是真的。两篇文章看起来相互矛盾,并得出相反的类型 1 和类型 2 错误。
我有好几次同样的困惑。
让我试着告诉你我的结论,尽管我不能 100% 确定我的结论是正确的。
类型 1 错误的定义取决于误报。类型 2 错误的定义取决于 False Negative。
以上两种说法总是正确的。
那为什么会出现混乱呢?
零假设和替代假设函数的定义引起了混淆。
在统计学中,通常空假设是一种大多数人都接受且不包含太多信息的假设,而替代假设是一种扰乱现状的假设,如果为真,那就是一个大新闻。
因此,在您的银行业务示例中,您可以考虑
空假设 = 银行正常(溶剂)
替代假设 = 银行破产
所以,如果这是定义,那么破产文献是正确的。
但是,通常在机器学习/数据科学中,我们不会定义两个假设,我们只是将问题定义说成是预测银行是否破产。在这种情况下,我们的
- 真正的肯定是银行破产了,我们预测它是破产的。
- 误报是 Bank is Solvent,我们将其预测为破产。
- 假阴性是银行破产,我们将其预测为 Solvent。
因此,再次由上述陈述,混淆矩阵的定义也是正确的。
那么,为什么会出现矛盾的错误呢?答案只是我们定义假设的方式不同。
在银行业文献中,他们将 true 定义为有偿付能力的银行,将 false 定义为破产的银行。在混淆矩阵中,我们假设 true 为破产银行,false 为偿付能力银行。
请查看以下内容以获取更详细的说明。