数据挖掘 - 对于多类分类问题，如何将目标变量转换为 sklearn 算法可用的形式？ - 吾爱随笔录

我最近尝试创建一个模型来预测样本属于 160 个可能的类别中的哪一个类别。目标变量的这些类只是描述“俯卧撑”、“仰卧起坐”等锻炼的简单字符串。我使用 sklearn 的方法 LabelEncoder 来转换目标变量，它为每个类分配了一个 0 到 159 之间的数字。我知道我们应该对分类特征进行 one-hot 编码的原因是为了避免告诉算法一些无意义的事情，比如“蓝色大于红色”。然后我的问题变成了，LabelEncoder 是否告诉 sklearn 算法“俯卧撑”小于或大于“仰卧起坐”，如果它们都被分配了 0-159 之间的不同数字？为什么或者为什么不？这感觉像是一个非常愚蠢的问题，但我在网上任何地方都很难找到答案。