Statistics.com 是否发布了错误的答案?

机器算法验证 可能性 贝叶斯
2022-02-06 06:43:51

Statistics.com 发布了本周的一个问题: 住宅保险欺诈率为 10%(十分之一的索赔是欺诈性的)。一位顾问提出了一个机器学习系统来审查索赔并将其分类为欺诈或非欺诈。该系统在检测欺诈性索赔方面的效率为 90%,但在正确分类非欺诈性索赔方面的效率仅为 80%(它错误地将五分之一的人标记为“欺诈”)。如果系统将索赔分类为欺诈,那么它真的是欺诈的概率是多少?

https://www.statistics.com/news/231/192/Conditional-Probability/?showtemplate=true

我和我的同行都独立提出了相同的答案,并且与已发布的解决方案不符。

我们的解决方案:

(.9*.1)/((.9*.1)+(.2*.9))=1/3

他们的解决方案:

这是条件概率中的一个问题。(这也是一个贝叶斯问题,但应用贝叶斯规则中的公式只会帮助掩盖正在发生的事情。)考虑 100 个声明。10 个将是欺诈,系统会将其中 9 个正确标记为“欺诈”。90 次索赔是可以的,但系统会将 72 次(80%)错误地归类为“欺诈”。因此,总共有 81 个索赔被标记为欺诈,但其中只有 9 个,即 11%,实际上是欺诈。

谁是对的

2个回答

我相信你和你的同事是对的。Statistics.com 的思路是正确的,但犯了一个简单的错误。在 90 个“OK”声明中,我们预计其中 20% 被错误地归类为欺诈,而不是 80%。90 的 20% 是 18,导致 9 个正确识别的声明和 18 个不正确的声明,比率为 1/3,这正是贝叶斯规则得出的结果。

你是对的。该网站发布的解决方案是基于对问题的误读,即 80% 的非欺诈性索赔被归类为欺诈性,而不是给定的 20%。