我已经收集了大量的定性数据,现在正在寻找对其进行聚类以便理解它。为此,我正在使用 Biolab 的 Orange。
在我的数据中,特定值可能会同时出现在给定的特征中,也可能不会。我想知道如何对数据进行聚类(在 Orange 或其他软件中),其中同时出现的值将被视为两个值,而不是一个字符串。
为了让事情更清楚,假设我有一个特征 X,其可能值为 A 和 B。这些值可以以下列方式出现:A、B、A 和 B。
问题:如何在不将“A 和 B”视为单独的字符串,而是将“A”和“B”同时出现的情况下对我的数据进行聚类?