机器学习的初学者,我正在研究 one-hot 编码概念。
与统计数据中你总是想放弃第一级以获得k-1
假人(如在 SE 上讨论的那样)不同,似乎有些模型需要保留它并拥有k
假人。
我知道有k
级别可能会导致共线性问题,但我不知道有级别会导致任何问题k-1
。
但是由于默认情况下pandas.get_dummies()
有它的drop_first
参数false
,这有时肯定是有用的。
在哪些情况下(算法、参数...)我想保持第一级并适合k
每个分类变量的级别?
编辑: @EliasStrehle 对上述链接的评论指出,这仅在模型具有截距时才成立。这个规则可以推广吗?像 KNN 或树这样的算法在统计定义中不完全是模型呢?