数据挖掘 - 是否总是可以从数据中获得定义明确的集群？ - 吾爱随笔录

数据挖掘机器学习聚类主成分分析特纳

2021-09-29 22:36:03

我有看电视的数据，我一直在尝试对它进行聚类以获得不同的观察者集。我的数据集包含 64 个特征（例如总观看时间、跳过的广告百分比、电影与节目等）。所有变量都是数字或二进制。但无论我如何对待它们（将它们标准化、标准化、保持原样、获取特征子集等），我总是最终得到类似这样的图片：

这张特定的图片是在应用 t-SNE 和 scikit-learn 库中的 2 个组件后构建的。使用 PCA 时的情况相似，即使同时使用 PCA 和 t-SNE 时也是如此。

看起来所有的观察者都差不多，我们不能把它们分成集群。但我非常怀疑这一点。因此，我的问题是：数据是否可能如此同质？或者也许只是不可能像我试图做的那样形象化它？是否有一些先进的可视化技术？

3个回答

首先，不应使用图片来定义数据上是否存在组，因为无论您使用哪种投影（使用 PCA 线性或使用 tSNE 流形），您都将 64 维空间缩减为 2 维空间空间，丢失了很多信息。

其次，据我所知，没有任何定理可以保证您可以在任何给定的 X 矩阵上找到簇，根据An Impossibility Theorem for Clustering可能相反。所以对于你的第一个问题，我很遗憾地说不。

因此，我会给您 2 条建议，以验证您的数据中是否存在此类组：

该指标应该是一个很好的衡量标准，可以告诉您是否有组以及希望有多少组（根据您的指标和关心集群的数量）

一旦您找到了具有良好指标的算法和多个集群，您就可以运行集群分析（分析一个集中趋势度量，例如集群中每个特征的平均值），以便根据集群的特征特征获得一些见解。

然后您可以再次绘制 2D 散点图，但这次将集群 ID 添加为颜色，这样会更有洞察力。

希望能帮助到你

任何数据分析工作都是如此。您无法保证会在数据中找到您要查找的内容。

你有一个理论、问题、假设……然后你收集数据，看看它是否符合现实。

不过要小心，没有证明不能证明没有。您可能看不到预期的结果是有原因的。在您的情况下，它可能是损坏或错误标记的数据，数据收集中的偏见（从同一个集群中提取）......因此在得出结论之前需要进行一些检查和验证。

所以回答你的问题，是的，可能没有集群。

64 个功能（例如，总观看时间、跳过的广告百分比、电影与节目等）。所有变量都是数字或二进制。

这有几个问题。最好在尝试将数据分解为所谓的主效应时看到它们，至少作为心理实验或练习。

看不到你的目标函数y(par1, par2, ... par64)是什么或应该是什么。例如“尽可能长时间地观看”、“订购商品的价值”等等。ideal objective function//在你的情况下，它是什么或者应该是什么样子就更不明显了。
您的 64 个参数中的一些可能携带信息（包括无），一些可能是或仅添加噪声（包括全部）。AAnalysis Of Variances (ANOVA) 通常会给你一个线索，还有数字residual error。由此您知道，例如“par23、par12 和 par63 确实会导致降序的差异，而所有其他的都无法与 y 的随机噪声区分开来，因此被合并为total residual error.

顺便说一句，参数是噪声还是信号，很多时候取决于它的变化幅度。微小的参数变化可能只是......输出 y 的微小变化......

回顾一下，考虑任何所谓的 AI 聚类在功能上与进行多项式拟合没有太大区别：它们将始终拟合当前数据集，并且很可能无法预测新数据集的行为。
除了数学之外，还有一个人类特征可以在我们所认识的几乎任何事物中发现模式。想想例如“月球上的人”，我们中的许多人都会看到它，因为我们知道面孔的外观。但这些模式可能与也可能不相关truth，即事物的真实情况或行为方式。
在此类调查中，可再现性始终是一个挑战。即你可能想预测未来的事件。ideal objective funtion这又与, signal(信息载体) 和noise(参数)密切相关。

是否总是可以从数据中获得定义明确的集群？

所以他们对你的问题的回答显然是“不”。这取决于调查的问题和您处理它的方式。

希望这可以帮助

其它你可能感兴趣的问题