在 NLP 中使用机器学习方法时,大多数研究使用 200 或 300 维向量。300 维嵌入携带更多信息,因此通常认为这会产生更好的性能结果。
如果你有无限的计算资源并且训练时间对你来说不是问题,那么在分类问题(例如情感分析)中使用 200 维嵌入而不是 300 维向量什么时候有意义?为什么?
我假设您使用的是现成的 word2vec、GloVe 或其他预训练向量。也就是说,在您的分类任务中,向量不是从头开始学习的。
在 NLP 中使用机器学习方法时,大多数研究使用 200 或 300 维向量。300 维嵌入携带更多信息,因此通常认为这会产生更好的性能结果。
如果你有无限的计算资源并且训练时间对你来说不是问题,那么在分类问题(例如情感分析)中使用 200 维嵌入而不是 300 维向量什么时候有意义?为什么?
我假设您使用的是现成的 word2vec、GloVe 或其他预训练向量。也就是说,在您的分类任务中,向量不是从头开始学习的。
我推荐这篇论文。作者将嵌入的大小视为超参数,并对其进行了详细研究。他们表明这个维度应该取决于语料库。
这里已经回答了围绕词向量的维度:https ://stackoverflow.com/questions/45394949/what-is-dimensionality-in-word-embeddings
通常选择 200-300 维度的原因是,他们已经看到它产生的结果非常接近或等同于他们选择更高维度时的结果。
在训练时间方面,在我个人遇到的大多数实验中,生成 200-300 维的词嵌入所花费的时间并没有显着差异。