数据挖掘 - 为什么 BERT 分类在序列长度较长时表现更差？ - 吾爱随笔录

我一直在尝试使用像 BERT 这样的变压器网络来完成一些简单的分类任务。我的任务是二进制赋值，数据集比较平衡，语料库是来自PUBMED的摘要。来自预处理的令牌的中位数约为 350，但我发现了一个奇怪的结果，因为我改变了序列长度。虽然使用太少的令牌会以可预测的方式阻碍 BERT，但 BERT 使用更多令牌并不会做得更好。看起来最佳的令牌数量约为 128，并且随着我给它更多的摘要而持续表现更差。

可能是什么原因造成的，我该如何进一步调查？