我最近尝试创建一个模型来预测样本属于 160 个可能的类别中的哪一个类别。目标变量的这些类只是描述“俯卧撑”、“仰卧起坐”等锻炼的简单字符串。我使用 sklearn 的方法 LabelEncoder 来转换目标变量,它为每个类分配了一个 0 到 159 之间的数字。我知道我们应该对分类特征进行 one-hot 编码的原因是为了避免告诉算法一些无意义的事情,比如“蓝色大于红色”。然后我的问题变成了,LabelEncoder 是否告诉 sklearn 算法“俯卧撑”小于或大于“仰卧起坐”,如果它们都被分配了 0-159 之间的不同数字?为什么或者为什么不?这感觉像是一个非常愚蠢的问题,但我在网上任何地方都很难找到答案。
对于多类分类问题,如何将目标变量转换为 sklearn 算法可用的形式?
数据挖掘
scikit-学习
多类分类
编码
2022-01-19 21:51:53
1个回答
欢迎来到本站!谷歌搜索“一个热编码”,一切都会变得清晰。
简而言之,不要将其视为 0-159 的“分配”数字。它更多的是关于每个类别的“槽”,并使用一种热编码让算法知道特定记录属于哪个槽。