聚类并获取阈值以对数据点进行分类

数据挖掘 分类 聚类 统计数据
2022-03-04 12:35:53

我有关于企业的真实世界数据集(120 个数据点),包含4 个特征我想根据这些特定特征的价值(官方要求)将这些企业准确地分为 4 类。我可以找到一个以特征为参数的方程;或找到每个特征的3 个阈值,这会将我的数据分为 4 个不同的类别。没有其他输入。我尝试了 KMeans,但我想要更多的见解。

如何确定使用哪种方法,以及如何计算阈值?谢谢你。

我的数据看起来像这样(简化):

企业 在职员工人数 收入(货币单位) 支出(货币单位) 投资(货币单位)
第一的 1200 120 110 20
第二 5 60 70 30
... ... ... ... ...
最后的 125 50 55 70
1个回答

有几种选择:

  1. 精心挑选的规则 - 给定领域专业知识,手动选择阈值以创建四个集群。

  2. 机器学习 - 将集群数量设置为四个。然后使用任何聚类算法(例如,k-means、高斯混合模型、DBSCAN、光谱)。这具有学习阈值的优点。

由于没有外部标签,因此选择最佳聚类结果可能很棘手。听起来该解决方案有业务需求。因此,应该使用业务指标来评估解决方案。