我知道(不断学习)Transformers 相对于 LSTM 的优势。
同时,我想从所需数据大小的角度,这两种技术的对比,假设我想训练一个下游任务(例如分类或 NER),在这种情况下我需要更多的数据达到特定的结果(尽管我完全知道我们永远不会提前知道我们需要多少数据)。
假设 N% 的结果(假设 LSTM 和 BERT 都可以达到该阈值),哪种架构(LSTM 或 BERT)需要更大的数据集(无论大小,我都知道数据集大小取决于任务并且可能会发生变化) 达到这一点。
BERT 是否需要更大的数据集来获得“好的结果”(经验观察会对我有所帮助)还是双向 LSTM?
