我有看电视的数据,我一直在尝试对它进行聚类以获得不同的观察者集。我的数据集包含 64 个特征(例如总观看时间、跳过的广告百分比、电影与节目等)。所有变量都是数字或二进制。但无论我如何对待它们(将它们标准化、标准化、保持原样、获取特征子集等),我总是最终得到类似这样的图片:
这张特定的图片是在应用 t-SNE 和 scikit-learn 库中的 2 个组件后构建的。使用 PCA 时的情况相似,即使同时使用 PCA 和 t-SNE 时也是如此。
看起来所有的观察者都差不多,我们不能把它们分成集群。但我非常怀疑这一点。因此,我的问题是:数据是否可能如此同质?或者也许只是不可能像我试图做的那样形象化它?是否有一些先进的可视化技术?