我的问题:输入数据是一个简短文档的语料库(每个文档只有几句话)。在每个文档中,一些表达式需要分类。一个文档必须包含一些类别(每个表达式都有一个标签),其余的都是可选的。任务:给定这样一个表达式及其周围的单词,对其类别进行分类。
作为一种解决方案,我想使用 word2vec 将我的词汇转换为向量,然后应用一些多类分类器。
是否有任何分类器特别适合 word2vec 的输出?我想使用 svm,有推荐的内核吗?
我的问题:输入数据是一个简短文档的语料库(每个文档只有几句话)。在每个文档中,一些表达式需要分类。一个文档必须包含一些类别(每个表达式都有一个标签),其余的都是可选的。任务:给定这样一个表达式及其周围的单词,对其类别进行分类。
作为一种解决方案,我想使用 word2vec 将我的词汇转换为向量,然后应用一些多类分类器。
是否有任何分类器特别适合 word2vec 的输出?我想使用 svm,有推荐的内核吗?
总是很难先验地评估数据预处理的性能。即使是像规范化数据这样简单的事情也不会对后来训练的分类器的性能产生明显影响(请参阅这篇文章的示例:规范化数据会使 CNN 的性能恶化?)。
但是,以下链接可能会帮助您实现您的想法:
文本分类 作者使用 Word2Vec评估了文本文档上各种分类器的性能,其中嵌入了 word2vec。碰巧使用“经典”线性支持向量分类器和 TF-IDF 编码获得了最佳性能(该方法在代码方面非常有用,尤其是在使用 python 和 sk-learn 时)
关于 SVM,有为文本设计的内核。我曾经使用信息扩散内核和 TF-IDF 编码获得了不错的结果。或者你有直接在字符串上工作的内核:Text Classification using String Kernels,但它们的实现很少......
最好的起点是线性内核,因为这是 a) 最简单的并且 b) 通常适用于文本数据。然后,您可以尝试非线性内核,例如流行的RBF 内核。