我目前正在研究一个回归问题,其中我有一个x
“直方图箱”形式的数据变量 ( )。即我的值范围可以是 900-999、1500-1599 等。但是数据并没有告诉你具体的值。
我的问题是:在这种情况下,我是否应该将此变量视为实值(可能取每个 bin 的中位数)?还是应该将其视为分类数据,每个 100 宽的 bin 代表一个单独的类别?如果我确实将其视为分类,那么最好的编码是什么(标签、1-hot 等)?
我的困惑来自这样一个事实,即使所提供的数据是分类的,它在道德上也是一个实值变量。我也有先验知识,我的目标变量y
应该与x
. 因此,如果我只是使用任意编码,它是否能够捕捉到这种相关性?