所以我正在阅读这篇论文(关于预训练然后自我训练的用例),这让我开始思考——假设我在特定数据集上预训练了一个模型,然后在同一个数据集上再次对其进行微调。
从理论上讲,如果我们将其预训练为蒙面 LM 并进行微调,可能会导致过度拟合——但我不确定。也许它不能很好地概括,但仍然会提高准确性?
有谁知道一些研究或其他可靠的来源来解释为什么或为什么不应该这样做?
此外,如果这确实可行/建议我们是否必须在Tensorflow、Keras 或 HuggingFace (基本上是任何深度学习框架或库)中采取一些额外的步骤才能这样做?
编辑:-一个简单的例子,我的意思是,如果我们有一个特定的监督任务,并且对我们要微调的相同特征进行预训练——这会提高准确性吗?