假设我训练了一个分类器来为产品分配一个商店部门,例如:ALGIDA Cow milk->Diary。它是在官方产品名称的域上做到的。
当我将预训练的分类器应用于购物清单中的产品名称时,我发现它的性能不如在源域中那么好,因为人们往往会犯拼写错误、产品名称缩写、不包括品牌名称等。在他们的购物清单中。
简单地说,分类器不能很好地泛化到另一个领域。
我尝试了一些技术,其中每种技术都单独提高了目标域中的分类器准确性:
- 通过更正拼写错误和扩展缩写来预处理购物清单中的产品名称
- 在训练之前通过删除品牌名称对源域中的产品名称进行预处理。
- 在构建 TF/IDF 向量之前提取产品名称
- 使用预训练的 USE(通用句子编码器)模型嵌入产品名称。
这些技术中的每一种都使一个领域中的短语与另一个领域中的短语更相似,或者在这些短语之上构建的功能在各个领域之间更加相似。
你会称这些技术中的任何一种为领域适应吗?