我正在使用 word2vec 作为单词表示对推文进行情绪分析。
我已经训练了我的 word2vec 模型。但是当我要训练我的分类器时,我面临的问题是每条推文都有不同的长度,并且分类器(RandomForest)需要所有示例的大小相同。
目前,对于每条推文,我都会对其所有单词的向量进行平均,最终得到推文的向量表示。
例如:我的 word2vec 模型将每个单词表示为大小为 300 的向量。
我Tweet1
由10个单词Tweet2
组成,由5个单词组成。
所以我要做的是,因为 Tweet1
(v1_Tweet1 + v2_Tweet1 + ... +v10_Tweet1)/10 = v_Tweet1 #avg vector of 300 elements.
对于Tweet2
:
(v1_Tweet2 + v2_Tweet2 + ... +v5_Tweet1)/5 = v_Tweet2 #avg vector of 300 elements.
*作为 v1_TweetX 的 TweetX 的第一个单词的向量,依此类推。
这工作“很好”,但我想知道您采取了哪些其他方法来克服分类器的火车和文本示例的不同大小。
谢谢。