更新 One-Hot Encoding 以适应新类别

数据挖掘 机器学习 逻辑回归 分类数据 推荐系统
2022-03-02 08:45:05

我的问题集中在如何在测试数据引入新类别时适当地更新编码特征集。我在逻辑回归中使用数据,我知道它不是一个“实时”模型(即,每当引入新数据时都会执行梯度下降)但我是否必须重新训练模型以考虑添加的功能,或者我只是将它添加到随后的测试集值。

为了举例说明这个问题,请考虑一个电视节目训练集,其中每个节目都有一个“网络”特征集,其中包括以下一项或多项:

["abc","cbs","nbc"] 

然后,在测试集中有一个具有特征集的电视节目:

["abc", "hulu"] 

我是否必须将新功能追溯添加到训练数据中并重新训练模型,即使它永远不会发生?这不会引入“前瞻性偏见”吗?

我如何解释编码器中添加的功能?

1个回答

我认为你有两个选择:

  • 自动化您的训练/测试管道,以便一次性编码成为其中的一部分。如果引入了新的分类变量,即使不是很普遍,它们也可以在训练数据集中出现。如果电视节目发行的性质随着时间的推移发生了变化(例如,20 年前没有那么多选择),这将引入一些偏见,但我不一定认为它会阻碍节目。
  • 如果随着时间的推移引入了新的可能性,但无论出于何种原因您无法重新训练,那么您应该省略使用该新值。这有其自身的缺点,因为在您的示例中,这将是一个没有网络的电视节目。