我正在计算沙盒数据集的F 分数:100 名医疗患者,其中 20 名患有癌症。我们的分类器错误地将 20 名健康患者归类为患有癌症,将 5 名患有癌症的患者错误归类为健康,其余的则正确。
我们计算真阳性;真阴性;误报;和假阴性。
我们遇到了关于哪个类别先来的争论,那些测试癌症“阳性”的类别,或多数类别,例如那些“健康”的类别。
明确的问题:这个数据集中的正确真阳性率是多少?是吗:
- # 预测健康患者超过 # 实际健康患者
- # 预测癌症患者超过 # 实际癌症患者
如果您可以参考一些支持一种假设或另一种假设的文献,则可以加分。
请注意,我浏览了一些关于 f 分数的文本,但没有看到关于这一点的明确讨论:
https://en.wikipedia.org/wiki/F1_score http://rali.iro.umontreal.ca/rali/sites/default/files/publis/SokolovaLapalme-JIPM09.pdf
维基百科关于精确度和召回率的文本似乎暗示“真阳性”由正在执行的任何“测试”定义,因此在这种情况下定义为少数类,因为“测试”是针对癌症的。但是,我发现讨论不够严谨,无法说服我。如果我简单地用“健康”患者的测试来描述测试,我会更改 f 分数,但这只是语义上的更改。我希望 f 分数有一个数学上严格的定义。