文本分类问题:Word2Vec/NN 是最好的方法吗?

数据挖掘 神经网络 文本挖掘 多类分类 词嵌入
2021-09-16 07:41:10

我正在寻求设计一个系统,给定一段文本将能够对其进行分类并识别上下文:

  1. 使用用户生成的文本段落(如评论/问题/答案)进行训练
  2. 训练集中的每个项目都将被标记。所以对于例如(“类别1”,“文本段落”)
  3. 将有数百个类别

构建这样一个系统的最佳方法是什么?我一直在研究几个不同的选项,以下是可能的解决方案列表。Word2Vec/NN 是目前最好的解决方案吗?

  1. 使用平均 Word2Vec 数据馈送的递归神经张量网络
  2. RNTN 和段落向量 ( https://cs.stanford.edu/~quocle/paragraph_vector.pdf )?
  3. 深度信念网络中使用的 TF-IDF
  4. TF-IDF 和逻辑回归
  5. 词袋和朴素贝叶斯分类
1个回答

1) TFIDF 向量上的最大熵(逻辑回归)是许多 NLP 分类任务的良好起点。

2) Word2vec 绝对值得尝试并与模型 1 进行比较。我建议使用 Doc2Vec 风格来查看句子/段落。

Quoc Le 和 Tomas Mikolov。句子和文档的分布式表示。http://arxiv.org/pdf/1405.4053v2.pdf

Gensim(python) 有一个很好的 Doc2vec 模型。