琐碎(和不那么琐碎)错误分类错误的原因和预防?

数据挖掘 机器学习 分类 主题模型
2022-02-16 10:50:08

我不确定是否可以通过提及公司名称来发布这个问题,对此我非常尊重和钦佩。但是,我认为更广泛的曝光可能有助于团队更快地解决这个问题和类似问题,并提高他们网站的机器学习 (ML)引擎的质量。

亚马逊的图书类别分类(我经常访问该分类)中出现了太多非常微不足道的错误分类错误,从而暴露了这个问题。在下面的示例中,这种行为的根本原因非常清楚,但在其他情况下,原因可能会有所不同。我很好奇错误分类的其他潜在原因以及避免此类问题的策略/方法是什么。事不宜迟,这就是问题在现实生活中的出现方式。

我正在查看一些与从研究生课程(尤其是博士课程)过渡到学术界工作环境相关的书籍。在其他几本书中,我遇到了以下一本:

在此处输入图像描述

到现在为止还挺好。但是,让我们进一步向下滚动以查看相关类别中的书籍评级。我们应该期望亚马逊能够找出与本书的学科、主题和内容相关类别看到 Amazon.com 复杂的 ML 引擎和算法的以下结果,我感到非常惊讶(这是一种轻描淡写的说法!):

在此处输入图像描述

显然,将本书与“听力学和言语病理学”(!)主题联系起来的唯一模糊事实是恕我直言,作者的姓氏(Boice)与“声音”一词接近。如果我的猜测是正确的,亚马逊的 ML 引擎出于某种原因决定考虑书籍的字典属性,而不是书籍最重要和最相关的属性,例如标题、主题和内容。我在 Amazon.com 和其他一些网站上看到多次出现类似的绝对错误的基于 ML 的决策。所以,希望我的问题有意义、有趣和重要,足以引发讨论:(任何相关的想法也将不胜感激。)

1个回答

通过查看这本书的评分,看起来他们正在做某种层次聚类。首先是一本书,然后是教科书,然后是医学与健康科学。

这是一个相当困难的问题,因为:

  1. 你不知道你有多少、哪些主题,而且主题是不断变化的。
  2. 由于这是一个聚类问题(或者在更好的情况下是一个半监督问题),因此无法应用这些错误的闭合反馈循环。聚类总是比监督学习问题更难。

显然,他们总体上做得很好。尤其是这本书,是一本难读的书……