布尔特征是否应该被归一化并且 false 应该是 -1 或 0

数据挖掘 特征选择 正常化
2021-09-19 07:29:43

我正在尝试从一组数字和分类特征中训练 SVM,例如:

  • 距离 X(数字)
  • 距离 Y(数字)
  • 字体大小差异(数字)
  • 字 1 粗体(布尔)
  • 字 2 粗体(布尔)
  • Word 1 字体大小(数字)
  • ...

为了将特征映射到特征数组,我将 true 视为 1,将 false 视为 0,然后使用 Z 分数对整个特征数组进行归一化。

我是否应该将 false 编码为 -1,以便它对支持向量的生成产生数值影响,值为 0 它不会修改所选向量(我假设)?

布尔特征应该以与数字相同的方式归一化,还是应该保留其编码值?

1个回答

根据 Ricardo Cruz 的评论,我尝试将 false 的值从 0 切换到 -1,并打开和关闭规范化。

将值从 0 切换到 - 1 或特征归一化都不会对 SVM 预测的值产生任何影响。在这种情况下,我为我的 SVM 使用了高斯核和顺序最小优化。