假设我想为电影 M 创建一个逻辑分类器。我的特征可能是人的年龄、性别、职业、位置。所以训练集会是这样的:
- 年龄 性别 职业 地点 喜欢(1)/不喜欢(0)
- 23 M 软件 美国 1
- 24 F 英国医生 0
等等....现在我的问题是我应该如何缩放和表示我的特征。我想到的一种方法:将年龄划分为年龄组,因此 18-25、25-35、35 岁以上,性别为 M、F,位置为美国、英国、其他。现在为所有这些值创建一个二元特征,因此年龄将有 3 个二元特征,每个特征对应一个年龄组,依此类推。因此,来自美国的 28 岁男性将表示为 010 10 100(010-> 年龄组 25-35、10 -> 男性、100 -> 美国)
在这里表示特征的最佳方式是什么?另外,我注意到一些例如 sklearn 的所有特征都以某种方式进行了缩放/标准化,例如,性别由两个值表示,男性和女性分别为 0.0045 和 -.0.0045。我不知道如何像这样进行缩放/规范化?