ML Clustering 如何投入实际使用?

数据挖掘 机器学习 分类 聚类 k-均值
2022-03-09 19:09:18

数据科学和机器学习的新手警报。我目前正在学习监督学习和无监督学习,监督学习很容易消化,我可以与很多实际用例相关联。无监督学习是我无法将其与现实世界的用例相关联的地方(尽管我发现了许多引述人们说他们将其用于客户细分、欺诈检测等)。

为了论证起见,我将仅引用一个取自 MS Azure Studio 示例的示例。

该数据集包含国家及其在各种形式食物中的平均蛋白质摄入量)。

当这个数据集通过 KMeans 算法运行时,它会创建 3 个集群并在这些集群中拟合国家名称。

那么在这个具体的例子中,我要解决的问题是什么?

我是否正在寻找基于蛋白质摄入习惯的类似国家?

我是否根据给定的数据集创建组,然后有人类智能来使这些组(或集群)有资格说“素食丰富的国家”、“红肉丰富的国家”等。然后当一个新的国家出现时,我们预测这是否国家属于哪个集群?

在这种情况下,工作流中需要一个中间人的智能,它需要标记集群(而不是标记分类中的每个数据点)。这是一个正确的理解吗?

3个回答

你想了解数据。

因此,您运行一个聚类,然后研究聚类中的点与不在聚类中的点有何不同。然后基于这些观察,你形成一个假设。例如,您可能会注意到一个集群包含吃大量快餐且超重的国家/地区。然后,您可以制定快餐导致超重的假设,然后检验该假设。

这是探索性数据分析的一种形式。没有一个数学函数可以最大化,但它是人类理解他们的数据然后能够制定新的假设的工具,否则这些假设不会出现在你的脑海中。

聚类是一个非常主观的问题。在大多数情况下,您有一个未标记样本的数据集。一种情况是您知道数据中有 k 个组或集群,您只需要找到这 k 个集群。在这里,可以使用 k-means 或高斯混合模型(或任何其他相关方法)来发现您的集群。另一种情况是,您甚至不知道数据中存在多少集群或组,您想使用聚类方法查找集群的数量。例如,不需要像 x-means 那样事先知道聚类数量的聚类算法。在某些情况下,您希望对数据进行预处理,对其进行分区,然后将结果用于监督学习算法。