在掩码语言建模期间处理高频标记?

数据挖掘 机器学习 语言模型 不平衡数据 掩蔽
2022-03-13 01:37:38

假设我正在使用 Masked Language Model 对特定数据集进行预训练。在该数据集中,大多数序列都有一个特定的高频标记

Sample Sequence:-
<tok1>, <tok1>, <tok4>, <tok7>, <tok4>, <tok4> ---> here tok4 is very frequent in this sequence

因此,如果我屏蔽一些标记并让模型训练以预测这些屏蔽标记,显然该模型将<tok4>由于其统计频率而在预测中获得偏差。

由于<tok4>代表重要信息,因此“下采样”(或删除那些频繁的标记)不是首选,我希望我的序列尽可能完整。

我应该如何最好地处理这个问题?是否有任何已经建立的方法可以解决这个问题?

1个回答

语言建模的目标是建立一个关于如何在特定上下文中使用语言的统计模型。其中一个重要组成部分是令牌频率。

偏见在机器学习中可能意味着很多事情。我认为您在高预测机会的意义上存在偏见。这种偏见在语言建模中很有用。如果<tok4>频繁出现,有用的语言模型将捕获该属性。