是领域适应吗?

数据挖掘 nlp
2022-02-17 03:42:03

假设我训练了一个分类器来为产品分配一个商店部门,例如:ALGIDA Cow milk->Diary。它是在官方产品名称的域上做到的。

当我将预训练的分类器应用于购物清单中的产品名称时,我发现它的性能不如在源域中那么好,因为人们往往会犯拼写错误、产品名称缩写、不包括品牌名称等。在他们的购物清单中。

简单地说,分类器不能很好地泛化到另一个领域。

我尝试了一些技术,其中每种技术都单独提高了目标域中的分类器准确性:

  1. 通过更正拼写错误和扩展缩写来预处理购物清单中的产品名称
  2. 在训练之前通过删除品牌名称对源域中的产品名称进行预处理。
  3. 在构建 TF/IDF 向量之前提取产品名称
  4. 使用预训练的 USE(通用句子编码器)模型嵌入产品名称。

这些技术中的每一种都使一个领域中的短语与另一个领域中的短语更相似,或者在这些短语之上构建的功能在各个领域之间更加相似。

你会称这些技术中的任何一种为领域适应吗?

1个回答

不确定它是否是文献中描述的域适应,因为由于拼写错误等原因,分类器在目标域中的性能更多地取决于两个域之间的对齐方式,而不是测量分布之间的差异两个域。如果源和目标之间的数据分布不同,那么在对齐之后,您应该使用任何适当的方法来解决这种差异并使用源域中的可用信息。

PS您是否使用“莱文斯坦距离”来对齐两个域?(将最相似的匹配在一起等......)