假设我的数据框中有以下功能:
| 用户身份 | 用户年龄 | is_student | is_graduate | 薪水 | 恢复 |
|---|---|---|---|---|---|
| 整数 | 整数 | 二进制 | 二进制 | 整数 | 文本(最多 1000 个符号) |
还有一些更多的分类和数字特征。
我想根据给定的数据对我的数据进行聚类。我本可以只使用 K-Means,但是我想在我的数据中包含resume列。有没有办法在任何聚类算法中包含文本列?
我的一个想法是为每个恢复观察获取向量嵌入,然后对它们进行聚类,然后将这些 cluster_id 添加到初始数据中。这样文本数据将以某种方式使用。
另一个想法是使用 TF-IDF。假设我将创建 100 个以上的二进制特征(来自 TF-IDF 的单词)。这样我可以直接在新数据上运行 K-Means,但是这样我的数据框会急剧增加,并且集群数据可能难以解释。