我对如何预处理基于范围的类别(例如年龄、肿瘤大小和 inv 节点)感到困惑。我应该取平均值,例如 - 14.5、24.5 等等,还是对 co-domain range 进行一次热编码。采用一种热编码会增加编号。的特征显着。因为,每个属性都有如下共同域:
- 年龄:10-19、20-29、30-39、40-49、50-59、60-69、70-79、80-89、90-99。
- 肿瘤大小:0-4、5-9、10-14、15-19、20-24、25-29、30-34、35-39、40-44、45-49、50-54、55- 59.
- inv 节点:0-2、3-5、6-8、9-11、12-14、15-17、18-20、21-23、24-26、27-29、30-32、33- 35、36-39。