有没有办法识别这些散点图中哪个“更好”?

数据挖掘 分类 数据集 聚类
2021-09-25 18:28:43

我怀疑更好是正确的形容词,为此道歉。我的意思是:我有一组文件(1200~),每个文件都与散点图图像配对。我需要找到一种方法来分类哪些数据文件将具有散点图,人们将这些散点图归类为“明确分离的数据”(同样,不是正确的词),哪些是“未明确分离的”。例如: 这个散点图中的数据明显分开,

这个散点图中的数据或多或少地分开了

此散点图中的数据没有明显分开

第一个和第二个散点图是最终归类为“良好”或“清晰”的数据示例,而第三个散点图将被归类为“不清楚”。是否有可以应用于数据的度量或距离来预测该文件生成的图是第一种还是第二种?

感谢您抽时间阅读。我是新手,英语不是我的第一语言。

2个回答

你可以:

  1. 手动标记其中的几个(比如 100-150 个),然后训练一个简单的模型来对数据进行分类。一个小的随机森林可以很好地完成这项工作。

  2. 在用于生成每个散点图的每个数据集上训练一个超级基本模型。类似于线性分类器的东西。如果分类器没有出错,那么你就有了“明确分离的数据”,如果它出错了,那么情况可能正好相反。

欢迎来到社区!

非常有趣的问题!我从介绍开始,并提出一些解决方案:

如果你没有标签(看起来就像你给它们上色一样),那么就没有任何合理的论据。正如您已经提到的,对无监督任务的评估在理论上是不可能的(什么是接近的?或什么是明确的?)。有一些方法可以在实践中对无监督任务的性能有一些直觉(比如划分集群内的变化和集群之间的差异,这在某种程度上告诉你它们是多么“分离”,但例如在这种情况下,高斯分布是假定)。

在此之后,我直接跳到我的建议:

有趣的方式

假设对于每个图像,您都有数据点及其标签(橙色和蓝色):

  1. 使用线性分类器对它们进行分类,并在交叉验证管道中获取它们的测试分数。我们稍后将使用这些分数作为良好分离的指标。
  2. 使用非线性分类器并执行与上述相同的操作。这一次你会得到更好的分数。我们稍后将使用它们作为井分离的第二阶段
  3. 为什么线性与非线性?我认为线性可分的两个类比非线性可分的两个类分离得更好如果您的假设与我不同,请结合步骤 (1) 和 (2)。
  4. 最后取所有线性分数和非线性分数并将它们组合起来(您可以简单地将它们相加:如果类是线性可分的,那么两个分数都很高,所以总和最高,如果非线性可分,那么一个高一个较低,所以summ 仍然很高,但低于线性数据,如果数据不可分离,即像第三张图像,那么两个分数都很低,所以它们的总和是最低的。)。现在您可以使用这些数字作为井分离的指标。

更严重一点

读取数据后(显然你有 2 个特征)找到那些的 F 值或使用 LDA 找到最佳投影轴,然后在那里计算 F 值。或者使用 PCA 找到最佳投影轴并计算该特征的 F 值。如果您看到这么多非线性类,请使用Kernel PCA

使用图像

我假设您有数据文件,但如果您的项目要确定与图像本身的这种良好分离,即进行图像处理和分析,请在我的答案下发表评论,以便我更新答案。

希望它有所帮助。祝你好运!