混淆矩阵一词的由来是什么?

机器算法验证 机器学习 数据挖掘 术语
2022-03-29 01:38:32

混淆矩阵是机器学习中的一个基本术语。然而,这个名字本身有点,嗯,令人困惑。我试图追查它的起源,但我不确定我是否正确,我想听听其他人知道什么。

由于 Kohavi 和 Provost 在 1998 年,该术语在 ML 社区变得流行。

然而,早在 1971 年,汤森就已经写了一篇论文来讨论它。本文讨论并实验了将 26 个英文字母(刺激物)呈现给应该用相同字母(反应)回复的受试者。混淆是一个 26 x 26 矩阵,其中包含对每个刺激的每个反应的概率。这解释了名称(主题混淆矩阵)并与当今机器学习中的用途相匹配。

从 1953 年开始,我使用 Google 书籍找到了对术语混淆矩阵的更早引用,但文本不可用。似乎在心理学中甚至更早地提到了这个术语,因为它被用作一个已知的短语。

混淆矩阵的起源是否确实在心理学中并且由于这种用法?关于这个词还有什么已知的?

参考

(Kohavi & Provost, 1998) ⇒ Ron Kohavi 和 Foster Provost。(1998 年)。“专业术语。” 在:机器学习 30(2-3)。

(汤森,1971 年)⇒ JT 汤森。(1971)。“字母混淆矩阵的理论分析。” 在:注意力、感知和心理物理学,9(1)。

1955 年应用心理学杂志,第 39 卷

美国心理学会,1955

Реферативный журнал:Математика,第 2 卷

Изд-во Академии наук СССР., 1953 - 数学

4个回答

据我了解,问题不是“网格/矩阵来自哪里?” 而是“为什么使用'混淆'这个词?” 我认为回顾 Pearson 不太可能有帮助。

我在学习心理学术语后的感觉是,“混淆”是指直觉认为一个项目可以正确或错误地标记/识别/检测等等(即,“标签混淆”)。按照这个逻辑,我在这种情况下将“混淆”这个词理解为松散地指代这个想法:我们的分类器(或者在心理学的情况下,观察者)是否正确识别了该项目,或者“它是否与另一个标签混淆“?这是我最好的猜测!

我想我理解了这个词的历史,感谢这里的回答:混淆矩阵这个词的起源是什么?

混淆矩阵是由Karl Pearson于 1904 年发明的。他使用了“列联”一词。它出现在卡尔·皮尔逊,FRS(1904 年)。对进化论的数学贡献 (PDF)。杜劳公司

在第二次世界大战期间,检测理论被发展为对刺激和反应之间关系的调查。那里使用了混淆矩阵。

由于检测理论,该术语被用于心理学。从那里这个词到达了机器学习。

似乎这个概念是在统计学这个与机器学习非常相关的领域中发明的,但它是在 100 年的时间里绕道而行到达机器学习的。

令许多数据科学资深人士感到奇怪的是,现在通常称为混淆矩阵的东西在过去被称为分类矩阵。两者具有相同的结构:列中的预测结果和行中的实际结果。我一直发现术语分类矩阵比混淆矩阵更容易混淆,而且我认为使用较新的术语没有任何好处。

Miller 和 Nicely 在 1955 年将其称为“混淆矩阵”。我不知道这是否是“混淆矩阵”一词的由来,但它可能是。

GA Miller 和 PE Nicely,“一些英语辅音中的感知混淆分析”,美国声学学会杂志 27:338-352,1955