几天前,我参加了一个数据科学家工作的面对面面试。我被问到的问题之一是:在分类器从 4 个可能品牌中的某些特征(价格、尺寸、规格……)预测电视品牌的情况下,您如何对品牌变量进行编码?我的回答是one hot encoding
,它被接受了,但后来他们要求我明确地这样做,我画了一些类似的东西:
brand A -> [1,0,0,0]
brand B -> [0,1,0,0]
brand C -> [0,0,1,0]
brand D -> [0,0,0,1]
然后,我在这些列不独立的原因下进行了纠正。并且解决方案应该是三个二进制列。
后来我突然想到我不知道为什么需要独立,而且三个二进制变量不是独立的。两个会。
有人可以提供一些解释来帮助我解决困惑吗?