如何使用 NLP 概括评论

数据挖掘 机器学习 nlp
2022-03-11 17:08:30

我在 CSV 文件中有日志评论列表。我想使用 K-Means 对这些日志评论进行聚类,之后我想将每个聚类评论转换为一般形式。 例如。我在一个集群中有一堆评论,从“预订编号失败......”开始,我想将这些评论转换为特定的评论,如“预订失败”。

我可以通过在查看每个集群后为每个集群指定特定名称来实现这一点。但我不想这样。我想创建智能模型,它会自动为我创建通用评论。

我不想为每个集群分配名称。基本上我完成了集群部分。也就是说,我可以说如下 3 个集群

  • 集群 0 :“预订号失败......”等评论列表,总评论:15
  • 集群 1:评论列表,如“请求超时失败,由于......”,评论总数:9
  • 集群 2:“餐饮预订成功完成...”等评论列表,总评论:5

我想构建模型,通过其内容智能地为每个集群分配名称。例如。

  • 集群 0 将获得名称为“预订失败”
  • 集群 1 将获得名称为“请求超时失败”
  • 集群 2 将获得名称为“餐饮预订成功”

如果在用一些不同的评论训练更多数据之后。它应该创建另一个集群并根据内容分配名称。

1个回答

基本上,我们希望对相似的评论进行聚类并为其分配一个名称/实体。我建议您使用Doc2Vec将注释转换为固定大小的向量。然后,您的每条评论都将是一个 n 维向量。具有相似单词/短语的评论将彼此靠近。

现在,使用 K-Means 聚类,我们可以形成表示具有相似含义的评论的向量集群。形成集群后,为每个集群分配一个名称。

对于给定的样本(评论),模型将首先将给定的评论转换为向量。然后,模型将检查最接近给定样本向量的集群。输出将是最近集群的名称。