我的问题集中在如何在测试数据引入新类别时适当地更新编码特征集。我在逻辑回归中使用数据,我知道它不是一个“实时”模型(即,每当引入新数据时都会执行梯度下降)但我是否必须重新训练模型以考虑添加的功能,或者我只是将它添加到随后的测试集值。
为了举例说明这个问题,请考虑一个电视节目训练集,其中每个节目都有一个“网络”特征集,其中包括以下一项或多项:
["abc","cbs","nbc"]
然后,在测试集中有一个具有特征集的电视节目:
["abc", "hulu"]
我是否必须将新功能追溯添加到训练数据中并重新训练模型,即使它永远不会发生?这不会引入“前瞻性偏见”吗?
我如何解释编码器中添加的功能?