在分类问题中,当响应变量具有多类,例如“晴天”、“雨天”、“阴天”时,我们应该如何对其进行编码?我知道对于这样的预测器,通常我们会使用One Hot Encoding,如果一个预测器的类太多,那么我们可能只使用LabelEncode。
当响应变量中出现这个多类问题时,我想我们可以只使用 LabelEncode() 而不是使用 One Hot 编码对吗?因为如果我们使用 One Hot 编码,那么我们将有 2 个变量作为响应变量,而 sklearn 中的机器学习算法通常期望响应变量不是向量,对吧?(我的意思是它需要一个长的一维向量,其长度等于观察的数量,但不是一个二维矩阵)。但另一方面,如果我们只是将“sunny”、“rainy”、“cloudy”映射到 {1,2,3} 或 {0,1,2} 或任何 3 个数字,这将创建一个小于或大于“晴”、“雨”、“阴”之间的关系,这在原问题中没有继承。