对于文本分类,基于 BoW 或 Word Embeddings 的模型会比语言模型更好吗?

数据挖掘 nlp 词嵌入 伯特 文本分类 语言模型
2022-03-12 23:34:29

我做了一些研究,就客观测量质量而言,是最好的,但想从理论的角度询问是基于 BoW 的模型(例如使用 TF-IDF)还是基于词嵌入的模型(例如 Word2Vec ) 对于文本分类问题,是否会比语言模型(例如 BERT)更好?

我正在处理的具体问题是将 2-8 个单词片段(例如“安瓿中的气泡”)二进制分类为“需要响应”或“不需要响应”类别,但我对一般问题更感兴趣多于。

1个回答

不幸的是,关于复杂神经网络做什么的理论知识很少。众所周知,变形金刚是通用近似值,因此理论上它们可以学习对输入句子执行任何功能,这与您提到的其他替代方案不同。大多数时候,类 BERT 模型的准确性会更好。

然而,在实践中,一切都取决于您拥有的数据。神经语言模型的参数非常多,这使得它们经常容易过度拟合并且难以训练。一些分类问题也可能很容易,以至于更强大的模型无济于事。还有计算效率的问题,精度增益可能不值得因使用更复杂的模型而放慢速度。BoW 模型也可能提供更好的可解释性。

总而言之,可能存在许多情况和许多原因,为什么更小和更简单的模型可能是更好的选择。