考虑我有一个机器自动获取的数据集,它返回以下测量值:
[111, 121, 114, 154, 149, 150]
然后,我手动检查机器接收到的这些值与真实值的比较情况,并且在手动检查时得到以下测量结果:
[112, 121, 114, 154, 149, 149]
如您所见,数据集在两个地方不同(我测量了 112,机器看到了 111,我测量了 149,机器看到了 150),这意味着机器不准确。
有了这个,说明和计算我对机器准确或不准确的信心的正确方法是什么?我显然可以说这是错误的 2/6 次(33% 不准确/66% 准确),但我不确定是否有更好的方法来表示这一点,尤其是使用比我为示例列出的数据集更大的数据集.
作为后续问题,我如何比较这些置信度或准确度水平?例如,如果这台机器的准确率通常为 94%,但最近被改进为 98%,那么除了准确率提高了 4% 之外,我如何说明这一点?