首先对我的数据进行聚类可以帮助我学习更好的分类器吗?

数据挖掘 分类 聚类 无监督学习 元学习 合奏
2022-03-02 23:25:48

我最近在想这个。假设我们有一个非常复杂的空间,这使得学习一个可以有效分割它的分类器变得很困难。但是,如果这个非常复杂的空间实际上是由一堆“简单”的子空间组成的呢?简单来说,我的意思是学习该子空间的分类器会更容易。

在这种情况下,首先对我的数据进行聚类,换句话说,找到这些子空间,会帮助我学习更好的分类器吗?这个分类器本质上是每个子空间分类器的集合。

澄清一下,我不想将集群用作附加功能并将其提供给大分类器,我想单独训练每个集群。

这是已经完成/证明有效/证明无效的事情吗?上面有论文吗?我一直在尝试搜索这样的东西,但找不到任何相关的东西,所以我想我会在这里问。

1个回答

这绝对是提高分类器准确性的一种方法。实际上,一个足够“强大”的分类器(例如神经网络)可以自行学习这些集群。但是,您需要一个更深的网络。

如果您知道数据中有许多组/集群,那么“最聪明”的方法是实际执行两步过程:

  • 集群数据
  • 训练 X 个模型,每个集群一个

一个很好的可视化方法是下面的问题,你想为类似 Netflix 的应用程序构建一个推荐引擎,你不想为每个人构建一个模型,你会怎么做?

  • 首先找到相似用户的集群(极客、科幻迷、青少年等)
  • 为这些集群中的每一个拟合一个模型