情绪分析/NER 上的 Transformers (BERT) 与 LSTM - 数据集大小比较

数据挖掘 数据集 lstm 伯特
2022-02-20 13:57:15

我知道(不断学习)Transformers 相对于 LSTM 的优势。

同时,我想从所需数据大小的角度,这两种技术的对比,假设我想训练一个下游任务(例如分类或 NER),在这种情况下我需要更多的数据达到特定的结果(尽管我完全知道我们永远不会提前知道我们需要多少数据)。

假设 N% 的结果(假设 LSTM 和 BERT 都可以达到该阈值),哪种架构(LSTM 或 BERT)需要更大的数据集(无论大小,我都知道数据集大小取决于任务并且可能会发生变化) 达到这一点。

BERT 是否需要更大的数据集来获得“好的结果”(经验观察会对我有所帮助)还是双向 LSTM?

2个回答

您无法事先知道需要多少数据才能达到特定的准确性。但是,如果您只想知道人们在其他数据集上取得了多少成就,您可以查看BERT 的原始论文

在此处输入图像描述

如您所见,有一些 3.5k 和 2.5 个示例的数据集。

您还应该知道,比较 BERT 和 LSTM 并不是一个公平的比较,因为您正在使用 BERT 进行迁移学习,因此它将从预训练数据中获益,而不仅仅是从您的训练数据中获益。

如果您使用预训练的 Transformer,那么您可能需要非常非常小的数据集。(我在低至 100 个带有正面/负面情绪分类的训练样本中取得了良好的准确性)。但是,如果您尝试从头开始训练变压器,则需要庞大的数据集。

同样,如果您使用预训练的 Word2Vec/Glove 嵌入文本并使用 LSTM 网络进行训练,那么您可以在非常小的数据集(同样低至 100 个样本进行二进制分类)的情况下获得良好的准确度。但是从头开始训练 Word2Vec 需要大量的训练样本。

如果我们比较两种情况下从头开始的训练,根据我的经验,transformer 将需要比 LSTM 大得多的数据集。