我正在寻求设计一个系统,给定一段文本将能够对其进行分类并识别上下文:
- 使用用户生成的文本段落(如评论/问题/答案)进行训练
- 训练集中的每个项目都将被标记。所以对于例如(“类别1”,“文本段落”)
- 将有数百个类别
构建这样一个系统的最佳方法是什么?我一直在研究几个不同的选项,以下是可能的解决方案列表。Word2Vec/NN 是目前最好的解决方案吗?
- 使用平均 Word2Vec 数据馈送的递归神经张量网络
- RNTN 和段落向量 ( https://cs.stanford.edu/~quocle/paragraph_vector.pdf )?
- 深度信念网络中使用的 TF-IDF
- TF-IDF 和逻辑回归
- 词袋和朴素贝叶斯分类