如何最好地使用转售交易年份来预测房价?

数据挖掘 线性回归 特征工程 特征缩放
2022-02-21 21:17:28

我正在研究根据类型、大小、位置等预测公寓价格(转售市场)的经典问题。非常简单,线性回归或回归树给出了一些不错的结果——我仍然更多探索阶段。

但是,我不确定如何最好地结合转售交易的年份,因为多年来有明显的长期趋势。现在,我只是将其保留为一个功能,这似乎是一种有效的方法。我只是想知道是否可能有其他方法。例如,我还必须按季度进行整体价格变动。所以我假设我可以根据这些趋势调整每个转售价格,而忽略年份作为特征。这有意义吗?

还有哪些其他方法?(同样,我什至不确定这是否是一个问题。)

1个回答

我认为您已经确定了两个主要选项:

  1. 为价格趋势建模,即使您的模型适合捕捉随着时间推移的价格趋势
  2. 清理您的 [价格] 数据,以便以“实际价格”(不包括价格趋势)表示价格。

选项 2将意味着您“缩小”标准化价格(例如每平方米的价格)。因此,2018 年、2019 年和 2020 年的每平方米价格将“调整”到(例如)2017 年的价格水平,以便所有价格都是“2017 年的价格”。您需要一个标准化的价格(例如每平方米),因为您需要控制数据组成中可能存在的未观察到的影响,例如,当 2020 年售出的平均房屋比 2017 年的平均房屋“更大”时。本质上,您需要制作确保“放气”的价格具有可比性。这可能是一个问题,例如当市场随时间发生变化时。你可以想象,购买“大”房子的意愿会随着时间的推移而变化,所以一平方米的“大”房子会随着时间的推移变得更加昂贵。

选项 1可以部分捕获上述效果。考虑线性回归的情况。假设您有两年(2019、2020)并且您想随着时间的推移“控制”通货膨胀。您的(简化的)基本模型,以价格作为自变量,如下所示:psqm

p=β0+β1sqm+u.

现在您可以添加一个“年份虚拟”(=1 if year==2020):

p=β0+β1sqm+β2t2020+u.

系数的平均影响。这有时被称为“固定效应”,因为该变量只是 2020 年与 2019 年所有级别价格的“转变” 。β2psqm

如果您认为和“时间”有某种关联,您还可以添加交互术语,例如:sqm

p=β0+β1sqm+β2t2020+β3sqmt2020+u.

在此模型中,您允许不同的截距(在 2019 年和 2020 年)以及两年中斜率。除了“时间”和的交互,您还可以添加“大小假人”(例如“小”与“大”房屋)并与之交互。sqmsqm

从本质上讲,选项 1 为您提供了更大的灵活性,因为线性回归允许您在模型内“缩小”价格。请注意,线性回归是一种参数化方法,因此您需要找到模型的适当参数化(就像在模型外执行此操作时需要找到正确的策略来降低价格一样)。

当您使用回归树时,您无需担心模型的功能表示。线性回归的优点是强制对所有数据拟合“时间假人”。在回归树中,假人的影响不太普遍。因此,在这种情况下,模型外的“放气”数据可能值得一试。

但是,当您进行低方差的预测时,您最终需要根据测试结果检查哪种方法最有效。

编辑(20-12-30):假人

假设您有一个 ID 向量:

  id
1  1
2  1
3  2
4  2
5  3
6  3

虚拟编码将如下所示:

  id1 id2 id3
1   1   0   0
2   1   0   0
3   0   1   0
4   0   1   0
5   0   0   1
6   0   0   1

在线性回归中,虚拟对象通常用作“对比”,例如id2vs.id1id3vs.的效果id1,因此您可以包含n-1虚拟对象。