数据挖掘 - 在某些列中使用文本对表格数据进行聚类 - 吾爱随笔录

假设我的数据框中有以下功能：

用户身份	用户年龄	is_student	is_graduate	薪水	恢复
整数	整数	二进制	二进制	整数	文本（最多 1000 个符号）

还有一些更多的分类和数字特征。

我想根据给定的数据对我的数据进行聚类。我本可以只使用 K-Means，但是我想在我的数据中包含resume列。有没有办法在任何聚类算法中包含文本列？

我的一个想法是为每个恢复观察获取向量嵌入，然后对它们进行聚类，然后将这些 cluster_id 添加到初始数据中。这样文本数据将以某种方式使用。

另一个想法是使用 TF-IDF。假设我将创建 100 个以上的二进制特征（来自 TF-IDF 的单词）。这样我可以直接在新数据上运行 K-Means，但是这样我的数据框会急剧增加，并且集群数据可能难以解释。