我正在研究根据类型、大小、位置等预测公寓价格(转售市场)的经典问题。非常简单,线性回归或回归树给出了一些不错的结果——我仍然更多探索阶段。
但是,我不确定如何最好地结合转售交易的年份,因为多年来有明显的长期趋势。现在,我只是将其保留为一个功能,这似乎是一种有效的方法。我只是想知道是否可能有其他方法。例如,我还必须按季度进行整体价格变动。所以我假设我可以根据这些趋势调整每个转售价格,而忽略年份作为特征。这有意义吗?
还有哪些其他方法?(同样,我什至不确定这是否是一个问题。)
我正在研究根据类型、大小、位置等预测公寓价格(转售市场)的经典问题。非常简单,线性回归或回归树给出了一些不错的结果——我仍然更多探索阶段。
但是,我不确定如何最好地结合转售交易的年份,因为多年来有明显的长期趋势。现在,我只是将其保留为一个功能,这似乎是一种有效的方法。我只是想知道是否可能有其他方法。例如,我还必须按季度进行整体价格变动。所以我假设我可以根据这些趋势调整每个转售价格,而忽略年份作为特征。这有意义吗?
还有哪些其他方法?(同样,我什至不确定这是否是一个问题。)
我认为您已经确定了两个主要选项:
选项 2将意味着您“缩小”标准化价格(例如每平方米的价格)。因此,2018 年、2019 年和 2020 年的每平方米价格将“调整”到(例如)2017 年的价格水平,以便所有价格都是“2017 年的价格”。您需要一个标准化的价格(例如每平方米),因为您需要控制数据组成中可能存在的未观察到的影响,例如,当 2020 年售出的平均房屋比 2017 年的平均房屋“更大”时。本质上,您需要制作确保“放气”的价格具有可比性。这可能是一个问题,例如当市场随时间发生变化时。你可以想象,购买“大”房子的意愿会随着时间的推移而变化,所以一平方米的“大”房子会随着时间的推移变得更加昂贵。
选项 1可以部分捕获上述效果。考虑线性回归的情况。假设您有两年(2019、2020)并且您想随着时间的推移“控制”通货膨胀。您的(简化的)基本模型,以价格和作为自变量,如下所示:
现在您可以添加一个“年份虚拟”(=1 if year==2020):
系数的平均影响。这有时被称为“固定效应”,因为该变量只是 2020 年与 2019 年所有级别价格的“转变” 。
如果您认为和“时间”有某种关联,您还可以添加交互术语,例如:
在此模型中,您允许不同的截距(在 2019 年和 2020 年)以及两年中斜率。除了“时间”和的交互,您还可以添加“大小假人”(例如“小”与“大”房屋)并与之交互。
从本质上讲,选项 1 为您提供了更大的灵活性,因为线性回归允许您在模型内“缩小”价格。请注意,线性回归是一种参数化方法,因此您需要找到模型的适当参数化(就像在模型外执行此操作时需要找到正确的策略来降低价格一样)。
当您使用回归树时,您无需担心模型的功能表示。线性回归的优点是强制对所有数据拟合“时间假人”。在回归树中,假人的影响不太普遍。因此,在这种情况下,模型外的“放气”数据可能值得一试。
但是,当您进行低方差的预测时,您最终需要根据测试结果检查哪种方法最有效。
编辑(20-12-30):假人
假设您有一个 ID 向量:
id
1 1
2 1
3 2
4 2
5 3
6 3
虚拟编码将如下所示:
id1 id2 id3
1 1 0 0
2 1 0 0
3 0 1 0
4 0 1 0
5 0 0 1
6 0 0 1
在线性回归中,虚拟对象通常用作“对比”,例如id2vs.id1和id3vs.的效果id1,因此您可以包含n-1虚拟对象。