机器学习模型的数据预处理

数据挖掘 机器学习 Python scikit-学习 数据集 数据清理
2021-10-13 18:21:47

v[![][1]

我对如何预处理基于范围的类别(例如年龄、肿瘤大小和 inv 节点)感到困惑。我应该取平均值,例如 - 14.5、24.5 等等,还是对 co-domain range 进行一次热编码采用一种热编码会增加编号。的特征显着。因为,每个属性都有如下共同域:

  1. 年龄:10-19、20-29、30-39、40-49、50-59、60-69、70-79、80-89、90-99。
  2. 肿瘤大小:0-4、5-9、10-14、15-19、20-24、25-29、30-34、35-39、40-44、45-49、50-54、55- 59.
  3. inv 节点:0-2、3-5、6-8、9-11、12-14、15-17、18-20、21-23、24-26、27-29、30-32、33- 35、36-39。
1个回答

您绝对应该使用一种带有表示数字的值的热编码,因为这会消除间隔之间的自然顺序。

所以这些值应该用数字表示:

  • 要么确实是极限的平均值
  • 或者间隔的简单整数编码,例如肿瘤大小 0-4, 5-9, 10-14,... 将表示为 0,1,2,...