以集合为值的聚类

数据挖掘 聚类 橙色3
2022-03-10 02:01:17

我已经收集了大量的定性数据,现在正在寻找对其进行聚类以便理解它。为此,我正在使用 Biolab 的 Orange。

在我的数据中,特定值可能会同时出现在给定的特征中,也可能不会。我想知道如何对数据进行聚类(在 Orange 或其他软件中),其中同时出现的值将被视为两个值,而不是一个字符串。

为了让事情更清楚,假设我有一个特征 X,其可能值为 A 和 B。这些值可以以下列方式出现:A、B、A 和 B。

问题:如何在不将“A 和 B”视为单独的字符串,而是将“A”和“B”同时出现的情况下对我的数据进行聚类?

2个回答

您似乎有一个数据处理任务。您可以使用两列“A Occurrence”和“B Occurrence”。如果该值出现在记录中,则索引将包含 1。如果该值未出现在该记录中,则索引将包含 0。

例子:

X | 一次发生 | B 出现
A | 1 | 0
A 和 B | 1 | 1

有很多成熟的方法可以做到这一点。

阅读Jaccard 指数实际上,我不太喜欢当前的 Wikipedia 文章,因为例如,我认为计算机视觉示例非常愚蠢。我认为讨论应该基于原始的生物物种用例。