是否总是可以从数据中获得定义明确的集群?

数据挖掘 机器学习 聚类 主成分分析 特纳
2021-09-29 22:36:03

我有看电视的数据,我一直在尝试对它进行聚类以获得不同的观察者集。我的数据集包含 64 个特征(例如总观看时间、跳过的广告百分比、电影与节目等)。所有变量都是数字或二进制。但无论我如何对待它们(将它们标准化、标准化、保持原样、获取特征子集等),我总是最终得到类似这样的图片:

在此处输入图像描述

这张特定的图片是在应用 t-SNE 和 scikit-learn 库中的 2 个组件后构建的。使用 PCA 时的情况相似,即使同时使用 PCA 和 t-SNE 时也是如此。

看起来所有的观察者都差不多,我们不能把它们分成集群。但我非常怀疑这一点。因此,我的问题是:数据是否可能如此同质?或者也许只是不可能像我试图做的那样形象化它?是否有一些先进的可视化技术?

3个回答

首先,不应使用图片来定义数据上是否存在组,因为无论您使用哪种投影(使用 PCA 线性或使用 tSNE 流形),您都将 64 维空间缩减为 2 维空间空间,丢失了很多信息。

其次,据我所知,没有任何定理可以保证您可以在任何给定的 X 矩阵上找到簇,根据An Impossibility Theorem for Clustering可能相反。所以对于你的第一个问题,我很遗憾地说不。

因此,我会给您 2 条建议,以验证您的数据中是否存在此类组:

  1. 您可以尝试在聚类之前使用投影算法,但我建议您使用 UMAP 而不是 tSNE 或 PCA。

  2. 如果您使用 K-Means,请使用度量来评估集群分离,例如惯性,如果使用任何其他度量,则使用剪影。

该指标应该是一个很好的衡量标准,可以告诉您是否有组以及希望有多少组(根据您的指标和关心集群的数量)

一旦您找到了具有良好指标的算法和多个集群,您就可以运行集群分析(分析一个集中趋势度量,例如集群中每个特征的平均值),以便根据集群的特征特征获得一些见解。

然后您可以再次绘制 2D 散点图,但这次将集群 ID 添加为颜色,这样会更有洞察力。

希望能帮助到你

任何数据分析工作都是如此。您无法保证会在数据中找到您要查找的内容。

你有一个理论、问题、假设……然后你收集数据,看看它是否符合现实。

不过要小心,没有证明不能证明没有。您可能看不到预期的结果是有原因的。在您的情况下,它可能是损坏或错误标记的数据,数据收集中的偏见(从同一个集群中提取)......因此在得出结论之前需要进行一些检查和验证。

所以回答你的问题,是的,可能没有集群。

64 个功能(例如,总观看时间、跳过的广告百分比、电影与节目等)。所有变量都是数字或二进制。

这有几个问题。最好在尝试将数据分解为所谓的主效应时看到它们,至少作为心理实验或练习。

  1. 看不到你的目标函数y(par1, par2, ... par64)是什么或应该是什么。例如“尽可能长时间地观看”、“订购商品的价值”等等。ideal objective function//在你的情况下,它是什么或者应该是什么样子就更不明显了。

  2. 您的 64 个参数中的一些可能携带信息(包括无),一些可能是或仅添加噪声(包括全部)。AAnalysis Of Variances (ANOVA) 通常会给你一个线索,还有数字residual error由此您知道,例如“par23、par12 和 par63 确实会导致降序的差异,而所有其他的都无法与 y 的随机噪声区分开来,因此被合并为total residual error.

顺便说一句,参数是噪声还是信号,很多时候取决于它的变化幅度。微小的参数变化可能只是......输出 y 的微小变化......

  1. 对于此类调查,参数类型存在优劣等级。它是这样的,从好到坏:
  • 最好是连续数据(如观看时间);它们特定于您将要设计的流程或产品by intention
  • 不太有意义的是所有百分比(广告跳过百分比)或计数数据:它们往往是不具体的,即您可以将某些东西映射到百分比或计数,但相反的方向是......模棱两可
  • 最糟糕的是二进制、分类等:它们完全失去了物理意义,或者只是有太粗或太窄的变化。// 更糟糕的是,这些通常很容易获得,引诱你进入......噪音。
  1. 回顾一下,考虑任何所谓的 AI 聚类在功能上与进行多项式拟合没有太大区别:它们将始终拟合当前数据集,并且很可能无法预测新数据集的行为。

  2. 除了数学之外,还有一个人类特征可以在我们所认识的几乎任何事物中发现模式。想想例如“月球上的人”,我们中的许多人都会看到它,因为我们知道面孔的外观。但这些模式可能与也可能不相关truth,即事物的真实情况或行为方式。

  3. 在此类调查中,可再现性始终是一个挑战。即你可能想预测未来的事件。ideal objective funtion这又与, signal(信息载体) 和noise(参数)密切相关。

是否总是可以从数据中获得定义明确的集群?

所以他们对你的问题的回答显然是“不”。这取决于调查的问题和您处理它的方式。

希望这可以帮助