为什么 BERT 分类在序列长度较长时表现更差?

数据挖掘 深度学习 伯特 变压器 超参数调整 超参数
2021-09-23 21:26:34

我一直在尝试使用像 BERT 这样的变压器网络来完成一些简单的分类任务。我的任务是二进制赋值,数据集比较平衡,语料库是来自PUBMED的摘要。来自预处理的令牌的中位数约为 350,但我发现了一个奇怪的结果,因为我改变了序列长度。虽然使用太少的令牌会以可预测的方式阻碍 BERT,但 BERT 使用更多令牌并不会做得更好。看起来最佳的令牌数量约为 128,并且随着我给它更多的摘要而持续表现更差。

可能是什么原因造成的,我该如何进一步调查?在此处输入图像描述

0个回答
没有发现任何回复~