(为什么) Kohonen 风格的 SOM 已经失宠了吗?

机器算法验证 聚类 自组织图
2022-01-27 22:09:52

据我所知,Kohonen 风格的 SOM 早在 2005 年左右就达到了顶峰,并且最近没有受到如此多的青睐。我还没有找到任何论文说 SOM 已被另一种方法包含,或被证明等同于其他方法(无论如何,在更高维度上)。但现在 tSNE 和其他方法似乎获得了更多的墨水,例如在 Wikipedia 或 SciKit Learn 中,并且 SOM 被更多地作为历史方法提及。

(实际上,维基百科的一篇文章似乎表明,SOM 仍然比竞争对手具有一定的优势,但它也是列表中最短的条目。编辑:根据 gung 的要求,我正在考虑的其中一篇文章是:非线性降维. 请注意,与其他方法相比,SOM 关于它的文章较少。我找不到提到 SOM 似乎比大多数其他方法保留的优势的文章。)

有什么见解吗?其他人问为什么不使用 SOM,并且从前一段时间得到了参考,我已经找到了 SOM 会议的记录,但想知道 SVM 或 tSNE 等的兴起是否刚刚使流行机器学习中的 SOM 黯然失色。

编辑 2:纯属巧合,我今晚刚刚阅读了 2008 年关于非线性降维的调查,例如它仅提及:Isomap (2000)、局部线性嵌入 (LLE) (2000)、Hessian LLE (2003)、Laplacian eigenmaps (2003) 和半定嵌入 (SDE) (2004)。

3个回答

我认为您通过注意机器学习目前吹捧为“最佳”降维算法的影响来了解一些事情。虽然 t-SNE 在Merck Viz Challenge等竞赛中显示出其功效,但我个人已经成功地将 SOM 用于特征提取和二元分类。虽然除了算法的年龄之外,肯定有一些人在没有正当理由的情况下驳回 SOM(查看这个讨论,在过去几年中也有一些文章已经发表,实现了 SOM 并取得了积极的成果(参见Mortazavi 等人, 2013 年Frenkel 等人,2013 年例如)。谷歌学术搜索将显示 SOM 仍在许多应用领域中使用。然而,作为一般规则,特定任务的最佳算法正是——特定任务的最佳算法。如果随机森林对于特定的二元分类任务可能工作得很好,它可能在另一个任务上表现得非常糟糕。这同样适用于聚类、回归和优化任务。这种现象与没有免费午餐定理有关,但这是另一个讨论的话题。总之,如果 SOM 在特定任务上最适合您,那么这就是您应该用于该任务的算法,无论什么流行。

我对 SOM 与 t-SNE 等进行了比较研究,还提出了对 SOM 的改进,将其提高到一个新的效率水平。请在此处查看并告诉我您的反馈。很想知道人们对它的看法,以及它是否值得在 python 中发布供人们使用。

IEEE 论文链接:http: //ieeexplore.ieee.org/document/6178802/

Matlab实现。 https://www.mathworks.com/matlabcentral/fileexchange/35538​​-cluster-reinforcement--cr--phase

感谢您的反馈意见。

我的主观观点是,与许多其他方法相比,SOM 不太为人所知并且被认为不那么“性感”,但仍然与某些类别的问题高度相关。如果它们被更广泛地使用,它们很可能会做出重大贡献。它们在探索性数据科学的早期阶段对于了解多元数据的“景观”或“拓扑”非常宝贵。

Somoclu等图书馆的发展,以及Guénaël Cabanes(以及许多其他人)的研究表明,SOM 仍然具有相关性。