我一直在尝试使用像 BERT 这样的变压器网络来完成一些简单的分类任务。我的任务是二进制赋值,数据集比较平衡,语料库是来自PUBMED的摘要。来自预处理的令牌的中位数约为 350,但我发现了一个奇怪的结果,因为我改变了序列长度。虽然使用太少的令牌会以可预测的方式阻碍 BERT,但 BERT 使用更多令牌并不会做得更好。看起来最佳的令牌数量约为 128,并且随着我给它更多的摘要而持续表现更差。
为什么 BERT 分类在序列长度较长时表现更差?
数据挖掘
深度学习
伯特
变压器
超参数调整
超参数
2021-09-23 21:26:34
0个回答
没有发现任何回复~
其它你可能感兴趣的问题
