one-hot编码时如何处理潜在的交互?

数据挖掘 线性回归 特征工程 一热编码
2022-02-14 17:36:15

假设我有两个分类特征:电影、导演。我对电影和导演功能进行了 one-hot 编码,以用于线性回归模型。

问题是两部电影或多部电影可能由同一导演执导。即,一个特定的导演可能会为两部或多部不同的电影启用。这会是个问题吗?我应该将电影和导演合二为一吗?

1个回答

您可以在使用 one-hot 编码之前结合这些功能,看看性能是否有所提高。但请记住,这实际上取决于每次的问题。

一般来说,结合这些类型的功能是一个好主意。CatBoost是一个非常好的梯度提升库,创建了这样的组合,并且大多数时候结果都非常好。如果我是你,我会试一试。