是否复制了使用段落向量进行情感分析的最先进性能?

机器算法验证 文本挖掘 自然语言 词嵌入 情绪分析 可重复研究
2022-02-09 20:46:05

Le 和 Mikolov的 ICML 2014 论文“句子和文档的分布式表示”中的结果给我留下了深刻的印象。他们描述的技术称为“段落向量”,基于 word2vec 模型的扩展来学习任意长段落/文档的无监督表示。该论文报告了使用这种技术进行情感分析的最先进性能。

我希望在其他文本分类问题上评估这种技术,作为传统词袋表示的替代方案。然而,我在 word2vec 谷歌组的一个线程中遇到了第二位作者的帖子,这让我停了下来:

我试图在夏天重现 Quoc 的结果。我可以将 IMDB 数据集的错误率提高到 9.4% - 10% 左右(取决于文本规范化的好坏)。但是,我无法接近 Quoc 在论文中报告的内容(7.4% 的错误,这是一个巨大的差异)......当然,我们也向 Quoc 询问了代码;他承诺将其发布,但到目前为止还没有发生任何事情。...我开始认为 Quoc 的结果实际上是不可重复的。

有没有人成功地复制了这些结果?

1个回答

http://arxiv.org/abs/1412.5335的脚注(作者之一是 Tomas Mikolov)说

在我们的实验中,为了匹配 (Le & Mikolov, 2014) 的结果,我们遵循 Quoc Le 的建议,使用分层 softmax 代替负采样。然而,只有当训练和测试数据没有被打乱时,这才会产生 92.6% 的准确率结果。因此,我们认为这个结果是无效的。