我一直在阅读有关 word2vec 的内容,它能够将单词编码为向量表示。这些词的坐标(概率)与它们通常的上下文相邻词聚集在一起。
例如,如果我们的数据集中有 10k 个唯一词,我们将向网络提供 10000 个特征。该网络可以有例如 300 个隐藏神经元,每个神经元都具有线性激活函数。
网络的输出是 10 000 个神经元,每个神经元都有一个 softmax 分类器。每一个这样的“soft-maxed output”都代表了从我们的 10k 字典中选择合适单词的概率。

问题 1:嗯,我能够通过最终的 softmaxed 输出层从“语义分组”的单词中受益。然而,它似乎太大了——它仍然有 10 000 个概率的维度。
我真的可以使用这 300 个神经元导致我的其他一些网络吗?说,在我的 LSTM 等中?
然后我的 LSTM 的权重就不会占用太多磁盘空间。但是,我需要将 300 维状态解码回我的 10k 维状态,以便查找
问题 2: ......“编码”向量实际上已经位于隐藏层或输出层中了吗?