数据挖掘 - 通过 huggingface API 为特定领域的 LM 微调 gpt2 - 吾爱随笔录

我正在使用示例文件夹中的脚本来微调用于处理保险相关查询的机器人的 LM。因此，如果有人输入“我正在寻找修改我的……”，自动完成建议将是“修改我的名字”、“修改我的姓氏”、修改我的车号等

我的训练数据集有很多这样的样本，但总是以政策细节、个人细节等作为前缀或后缀，这似乎会影响微调，并且在预测中它总是包含一些随机名称、数字/文本，比如“我想要将我父亲的名字修改为 1235……”等等……我希望你明白这一点

处理这个问题的一种方法是使用一些 NER 清理训练数据集并删除特定信息（不是很令人印象深刻）或者解冻 gpt2 模型的其他一些层。

尝试探索 API，但它只允许加载预训练的 wirghts 并仅显式解冻最后一个分类层（？）..解决这个问题的任何指针都会非常有帮助..感谢任何输入