我有一些已装修房屋的数据。
在我的数据中,有一列(除其他外)捕获了此信息。
如果尚未进行任何翻新,则为“-1”,或者信息为翻新年份,如“1995”或“2008”。
我想应用逻辑回归。
但是,我不知道如何对待这个值。
恕我直言,它看起来像一个缺失值,尽管它不是缺失的信息。
那么,有人知道如何将这些(无序的)值与有序的年份相关联吗?
我能想到的另一种选择是对信息进行分类。比如 1990-1995、1996-2000、...2016-2019。
任何建议都受到高度赞赏。
我有一些已装修房屋的数据。
在我的数据中,有一列(除其他外)捕获了此信息。
如果尚未进行任何翻新,则为“-1”,或者信息为翻新年份,如“1995”或“2008”。
我想应用逻辑回归。
但是,我不知道如何对待这个值。
恕我直言,它看起来像一个缺失值,尽管它不是缺失的信息。
那么,有人知道如何将这些(无序的)值与有序的年份相关联吗?
我能想到的另一种选择是对信息进行分类。比如 1990-1995、1996-2000、...2016-2019。
任何建议都受到高度赞赏。
首先使用二进制 0(无翻新)和 1(翻新),这与逻辑回归完美配合。
使用确切的日期是一种不好的做法。它引导模型在特定日期过度拟合。例如,2006 年的模式将特定于那一年,对未来几年没有帮助。作为替代方案,在 5 年、10 年(取决于具体情况)等较大跨度上进行分箱似乎是一种改进。例如:
箱 = [1990, 2000], [2000, 2010], [2010, 2020]
[1990, 2000](1, 0, 0)
[2000, 2010](0, 1, 0)
[2010, 2020](0, 0, 1)
这种方法也有过度拟合的趋势,但时间跨度更大。另请注意,这样一来,您的模型总是有一个到期日期,因为如果我们在 2021 年通过最后一个 bin,则没有 bin 可以涵盖这一年。如果我们现在将 [2020, 2030] 包括在内,则没有数据可以了解这个 bin。并且使用 [2020, forever] 对未来同样无用。
我建议使用可概括的建筑和装修年代。2000 年 5 年的房子可以帮助我们推断出 2010、2020 或 2030 年的 5 年房子。对于没有装修的房子,年龄可以设置为 -1,这适用于逻辑回归(也可以用 0 进行实验)。最后一个例子:
renovation (has renovation, renovation age)
-1 (0, -1)
2010 in 2019 (1, 9)
请注意,重复时间特征是可以的。例如,“春天”、“星期一”或“晚上 8:00”等。