是否有一个简单的统计测试可以用来确定我的数据是否是球面可分的?我打算使用 Kmeans++ 将 48 维向量分成簇,但我刚刚读到这取决于我的数据是球面可分的假设……
如何确定我的数据是否球面可分?
机器算法验证
聚类
k-均值
2022-04-17 00:58:09
3个回答
两种主要方法是:
- 可视化(是的,有方法)
- 尝试对您的数据进行聚类和仔细评估
不要依赖任何自动方法或统计数据。
我认为当你有数据时你能做的最好和最简单的事情就是实现你的模型(k-means),训练你的模型,然后在看不见的数据上验证你的模型。验证错误告诉你你的模型有多好。您可以通过这种方式安全地比较任意数量的模型。
可视化可能适用于小型模型,但是很难将您必须的 48 维向量投影到 2 维并期望看到类分离。本质上,您的 k-means已经在进行投影。
其他答案指出 k-means 做出假设。所有模型都做出假设。如果他们做出错误的假设,那么当你验证时就会发现。
使用这篇博文作为参考,似乎可以比“尝试聚类”和“可视化”做得更好:
1)所有变量都应具有相同的方差,因此我可以对所有变量使用 Bartlett 检验。
2)所有 k 个集群的先验概率是相同的(即每个集群具有大致相等数量的观察值),这也是我可以检查的。
3) k-means 假设每个变量的分布方差是球形的
现在,我不确定如何测试第 3 点,这是我的问题。但是,至少这三个条件必须成立。所以我不限于检查每个变量的分布的方差是否是球形的。
其它你可能感兴趣的问题