我正在尝试进行情绪分析。为了将单词转换为单词向量,我使用的是 Word2Vec 模型。假设我有一个名为“句子”的列表中的所有句子,并且我将这些句子传递给 word2vec,如下所示:
model = word2vec.Word2Vec(sentences, workers=4 , min_count=40, size=300, window=5, sample=1e-3)
由于我对词向量不熟悉,因此我有两个疑问:
1-将特征数设置为 300 定义了词向量的特征。但这些特征意味着什么?如果这个模型中的每个词都由一个 1x300 的 numpy 数组表示,那么这 300 个特征对那个词意味着什么?
2- 上述模型中由“sample”参数表示的下采样实际上有什么作用?