在某些列中使用文本对表格数据进行聚类

数据挖掘 机器学习 深度学习 nlp 聚类 火炬
2022-02-12 09:46:56

假设我的数据框中有以下功能:

用户身份 用户年龄 is_student is_graduate 薪水 恢复
整数 整数 二进制 二进制 整数 文本(最多 1000 个符号)

还有一些更多的分类和数字特征。

我想根据给定的数据对我的数据进行聚类。我本可以只使用 K-Means,但是我想在我的数据中包含resume列。有没有办法在任何聚类算法中包含文本列?

我的一个想法是为每个恢复观察获取向量嵌入,然后对它们进行聚类,然后将这些 cluster_id 添加到初始数据中。这样文本数据将以某种方式使用。

另一个想法是使用 TF-IDF。假设我将创建 100 个以上的二进制特征(来自 TF-IDF 的单词)。这样我可以直接在新数据上运行 K-Means,但是这样我的数据框会急剧增加,并且集群数据可能难以解释。

0个回答
没有发现任何回复~