有没有办法识别这些散点图中哪个“更好”?
数据挖掘
分类
数据集
聚类
2021-09-25 18:28:43
2个回答
你可以:
手动标记其中的几个(比如 100-150 个),然后训练一个简单的模型来对数据进行分类。一个小的随机森林可以很好地完成这项工作。
在用于生成每个散点图的每个数据集上训练一个超级基本模型。类似于线性分类器的东西。如果分类器没有出错,那么你就有了“明确分离的数据”,如果它出错了,那么情况可能正好相反。
欢迎来到社区!
非常有趣的问题!我从介绍开始,并提出一些解决方案:
如果你没有标签(看起来就像你给它们上色一样),那么就没有任何合理的论据。正如您已经提到的,对无监督任务的评估在理论上是不可能的(什么是接近的?或什么是明确的?)。有一些方法可以在实践中对无监督任务的性能有一些直觉(比如划分集群内的变化和集群之间的差异,这在某种程度上告诉你它们是多么“分离”,但例如在这种情况下,高斯分布是假定)。
在此之后,我直接跳到我的建议:
有趣的方式
假设对于每个图像,您都有数据点及其标签(橙色和蓝色):
- 使用线性分类器对它们进行分类,并在交叉验证管道中获取它们的测试分数。我们稍后将使用这些分数作为良好分离的指标。
- 使用非线性分类器并执行与上述相同的操作。这一次你会得到更好的分数。我们稍后将使用它们作为井分离的第二阶段
- 为什么线性与非线性?我认为线性可分的两个类比非线性可分的两个类分离得更好。如果您的假设与我不同,请结合步骤 (1) 和 (2)。
- 最后取所有线性分数和非线性分数并将它们组合起来(您可以简单地将它们相加:如果类是线性可分的,那么两个分数都很高,所以总和最高,如果非线性可分,那么一个高一个较低,所以summ 仍然很高,但低于线性数据,如果数据不可分离,即像第三张图像,那么两个分数都很低,所以它们的总和是最低的。)。现在您可以使用这些数字作为井分离的指标。
更严重一点
读取数据后(显然你有 2 个特征)找到那些的 F 值或使用 LDA 找到最佳投影轴,然后在那里计算 F 值。或者使用 PCA 找到最佳投影轴并计算该特征的 F 值。如果您看到这么多非线性类,请使用Kernel PCA。
使用图像
我假设您有数据文件,但如果您的项目要确定与图像本身的这种良好分离,即进行图像处理和分析,请在我的答案下发表评论,以便我更新答案。
希望它有所帮助。祝你好运!
其它你可能感兴趣的问题