机器算法验证 - 混淆矩阵一词的由来是什么？ - 吾爱随笔录

混淆矩阵一词的由来是什么？

机器算法验证机器学习数据挖掘术语

2022-03-29 01:38:32

混淆矩阵是机器学习中的一个基本术语。然而，这个名字本身有点，嗯，令人困惑。我试图追查它的起源，但我不确定我是否正确，我想听听其他人知道什么。

由于 Kohavi 和 Provost 在 1998 年，该术语在 ML 社区变得流行。

然而，早在 1971 年，汤森就已经写了一篇论文来讨论它。本文讨论并实验了将 26 个英文字母（刺激物）呈现给应该用相同字母（反应）回复的受试者。混淆是一个 26 x 26 矩阵，其中包含对每个刺激的每个反应的概率。这解释了名称（主题混淆矩阵）并与当今机器学习中的用途相匹配。

从 1953 年开始，我使用 Google 书籍找到了对术语混淆矩阵的更早引用，但文本不可用。似乎在心理学中甚至更早地提到了这个术语，因为它被用作一个已知的短语。

混淆矩阵的起源是否确实在心理学中并且由于这种用法？关于这个词还有什么已知的？

参考

(Kohavi & Provost, 1998) ⇒ Ron Kohavi 和 Foster Provost。（1998 年）。“专业术语。” 在：机器学习 30（2-3）。

（汤森，1971 年）⇒ JT 汤森。（1971）。“字母混淆矩阵的理论分析。” 在：注意力、感知和心理物理学，9（1）。

1955 年应用心理学杂志，第 39 卷

美国心理学会，1955

Реферативный журнал：Математика，第 2 卷

Изд-во Академии наук СССР., 1953 - 数学

4个回答

据我了解，问题不是“网格/矩阵来自哪里？” 而是“为什么使用'混淆'这个词？” 我认为回顾 Pearson 不太可能有帮助。

我在学习心理学术语后的感觉是，“混淆”是指直觉认为一个项目可以正确或错误地标记/识别/检测等等（即，“标签混淆”）。按照这个逻辑，我在这种情况下将“混淆”这个词理解为松散地指代这个想法：我们的分类器（或者在心理学的情况下，观察者）是否正确识别了该项目，或者“它是否与另一个标签混淆“？这是我最好的猜测！

我想我理解了这个词的历史，感谢这里的回答：混淆矩阵这个词的起源是什么？

混淆矩阵是由Karl Pearson于 1904 年发明的。他使用了“列联表”一词。它出现在卡尔·皮尔逊，FRS（1904 年）。对进化论的数学贡献 (PDF)。杜劳公司

在第二次世界大战期间，检测理论被发展为对刺激和反应之间关系的调查。那里使用了混淆矩阵。

由于检测理论，该术语被用于心理学。从那里这个词到达了机器学习。

似乎这个概念是在统计学这个与机器学习非常相关的领域中发明的，但它是在 100 年的时间里绕道而行到达机器学习的。

令许多数据科学资深人士感到奇怪的是，现在通常称为混淆矩阵的东西在过去被称为分类矩阵。两者具有相同的结构：列中的预测结果和行中的实际结果。我一直发现术语分类矩阵比混淆矩阵更容易混淆，而且我认为使用较新的术语没有任何好处。

Miller 和 Nicely 在 1955 年将其称为“混淆矩阵”。我不知道这是否是“混淆矩阵”一词的由来，但它可能是。

GA Miller 和 PE Nicely，“一些英语辅音中的感知混淆分析”，美国声学学会杂志 27：338-352，1955

其它你可能感兴趣的问题

上一篇lsmeans (R)：使用交互项调整多重比较下一篇机器学习书（Python）