我正在阅读 FastText论文,我对用于分类的模型有一些疑问。由于我不是 NLP 背景,有些我不熟悉行话。在图中,具体是什么? 我不确定是什么ngram 特征的意思。如果我的文件有总的话,那么我怎么能用变量(,..,)? 究竟是什么?

如果是标签,那么在softmax之后将它与输出向量相乘有什么意义(标签就像0,1,2,3,..)?作者的意思是我们采取- 损失计算中输出向量的第一个分量?
我正在阅读 FastText论文,我对用于分类的模型有一些疑问。由于我不是 NLP 背景,有些我不熟悉行话。在图中,具体是什么? 我不确定是什么ngram 特征的意思。如果我的文件有总的话,那么我怎么能用变量(,..,)? 究竟是什么?

如果是标签,那么在softmax之后将它与输出向量相乘有什么意义(标签就像0,1,2,3,..)?作者的意思是我们采取- 损失计算中输出向量的第一个分量?
这个公式是有意义的,如果是表示类的 one-hot 编码标签的行向量,乘法是与单列矩阵表示 softmax 函数给出的所有类别的对数似然.
至于,它当然也必须是一个向量,代表-克在-th 文件。