数据挖掘 - ML Clustering 如何投入实际使用？ - 吾爱随笔录

ML Clustering 如何投入实际使用？

数据挖掘机器学习分类聚类 k-均值

2022-03-09 19:09:18

数据科学和机器学习的新手警报。我目前正在学习监督学习和无监督学习，监督学习很容易消化，我可以与很多实际用例相关联。无监督学习是我无法将其与现实世界的用例相关联的地方（尽管我发现了许多引述人们说他们将其用于客户细分、欺诈检测等）。

为了论证起见，我将仅引用一个取自 MS Azure Studio 示例的示例。

该数据集包含国家及其在各种形式食物中的平均蛋白质摄入量）。

当这个数据集通过 KMeans 算法运行时，它会创建 3 个集群并在这些集群中拟合国家名称。

那么在这个具体的例子中，我要解决的问题是什么？

我是否正在寻找基于蛋白质摄入习惯的类似国家？

我是否根据给定的数据集创建组，然后有人类智能来使这些组（或集群）有资格说“素食丰富的国家”、“红肉丰富的国家”等。然后当一个新的国家出现时，我们预测这是否国家属于哪个集群？

在这种情况下，工作流中需要一个中间人的智能，它需要标记集群（而不是标记分类中的每个数据点）。这是一个正确的理解吗？

3个回答

你想了解数据。

因此，您运行一个聚类，然后研究聚类中的点与不在聚类中的点有何不同。然后基于这些观察，你形成一个假设。例如，您可能会注意到一个集群包含吃大量快餐且超重的国家/地区。然后，您可以制定快餐导致超重的假设，然后检验该假设。

这是探索性数据分析的一种形式。没有一个数学函数可以最大化，但它是人类理解他们的数据然后能够制定新的假设的工具，否则这些假设不会出现在你的脑海中。

聚类是一个非常主观的问题。在大多数情况下，您有一个未标记样本的数据集。一种情况是您知道数据中有 k 个组或集群，您只需要找到这 k 个集群。在这里，可以使用 k-means 或高斯混合模型（或任何其他相关方法）来发现您的集群。另一种情况是，您甚至不知道数据中存在多少集群或组，您想使用聚类方法查找集群的数量。例如，不需要像 x-means 那样事先知道聚类数量的聚类算法。在某些情况下，您希望对数据进行预处理，对其进行分区，然后将结果用于监督学习算法。

这是集群如何工作的一个很好的演示。

https://www.pythonforfinance.net/2018/02/08/stock-clusters-using-k-means-algorithm-in-python/

这也很好。

https://towardsdatascience.com/dbscan-clustering-for-data-shapes-k-means-cant-handle-well-in-python-6be89af4e6ea

最后，看看这个。

https://www.kaggle.com/dhanyajothimani/basic-visualization-and-clustering-in-python

其它你可能感兴趣的问题

上一篇在 js 中使用 ML 有什么好处？下一篇pandas 中的序列数据结构