假设我试图预测一个人的用电量,使用一天中的时间作为预测变量(00-23 小时),并进一步假设我有大量但有限的历史测量值。
现在,我正在尝试建立一个类似于
问题:使用由于许多原因,数值是一个非常糟糕的主意,23 和 0 实际上是非常接近的值这一事实是一个可以通过简单的转换来解决的问题 [1]。电力消耗通常是双模式的这一事实是另一个无法通过简单转换来解决的问题。
一个可行的解决方案是将一天中的时间视为分类变量。这样做可以解决问题,但它有一个明显的缺点,即相邻时间之间没有信息共享。
所以我要问的是:有人知道分类值的“软”版本吗?我建议一些定义很松散的东西:理想情况下,我会有一些参数 alpha 将回归减少到数值回归,其中 并简化为分类回归,其中 , 如果是其他数字,则表现“介于两者之间”。
现在我能想到的唯一答案是改变回归中的权重,使它们趋向于零,准分类值离期望值越远。当然还有其他方法?
[1] 引入小时变量作为两个新变量: 和