假设我正在使用 Masked Language Model 对特定数据集进行预训练。在该数据集中,大多数序列都有一个特定的高频标记
Sample Sequence:-
<tok1>, <tok1>, <tok4>, <tok7>, <tok4>, <tok4> ---> here tok4 is very frequent in this sequence
因此,如果我屏蔽一些标记并让模型训练以预测这些屏蔽标记,显然该模型将<tok4>
由于其统计频率而在预测中获得偏差。
由于<tok4>
代表重要信息,因此“下采样”(或删除那些频繁的标记)不是首选,我希望我的序列尽可能完整。
我应该如何最好地处理这个问题?是否有任何已经建立的方法可以解决这个问题?