问题是关于泰坦尼克号生存预测的解决方案 kaggle 。就像许多人做过类似的特征提取一样,
他们使用波段将一些数字特征(年龄、票价)转换为带有名义标签(1、2、3)的分类类型。
如果我们拥有分类值形式的所有特征,它是否有助于模型有效地拟合?
我一直知道,如果你有分类值,你应该先将它们转换为数字,然后再转换为 DUMMY 变量。但是在解决方案中它没有完成,不需要虚拟化吗?
问题是关于泰坦尼克号生存预测的解决方案 kaggle 。就像许多人做过类似的特征提取一样,
他们使用波段将一些数字特征(年龄、票价)转换为带有名义标签(1、2、3)的分类类型。
如果我们拥有分类值形式的所有特征,它是否有助于模型有效地拟合?
我一直知道,如果你有分类值,你应该先将它们转换为数字,然后再转换为 DUMMY 变量。但是在解决方案中它没有完成,不需要虚拟化吗?
一些库在运行模型之前自动将分类特征编码为数字。分类特征的预处理由程序员或在框架内显式完成。您可以发布更多有关您的问题的详细信息吗?
可以使用标签编码器以及虚拟变量编码来更改分类变量。如果您的分类变量代表重要的数字,例如根据学生的成绩排名第一、第二、第三等。您可以将它们更改为可以很好地代表等级的数字,例如 1、2、3 等。如果它们不重要,例如如果第一个、第二个和第三个代表日期,则必须使用虚拟变量对其进行编码。更改为虚拟变量不需要先将其更改为数值。您可以使用虚拟变量对其进行编码。为了简单起见,我更喜欢使用pandas.get_dummies来获取虚拟变量。