使用两种价格来源预测公寓价格

数据挖掘 回归 目标编码
2022-03-10 11:06:56

我正在寻求以下问题的帮助。

数据集中有两个子样本——一个目标是真实的(有效),另一个是近似的(我还不知道它有什么不同,一个样本是公寓的实际价格,另一个是来自广告的价格,您当然需要预测真实的价格)。关于如何处理的任何想法?我有两个想法 - 标准化广告中的目标(将期望和方差带到真实目标),以及修改损失,以便对真实目标的错误进行更多惩罚。没有更多的想法。因此,我寻求帮助。

更新:很抱歉对细节很吝啬。问题是预测公寓价格,这是由专业房地产经纪人制定的。该数据集有很多特征(比如某个半径范围内的商店数量、到最近学校的距离等),我们在这个数据集中有两个子集:第一个是房地产经纪人开发的价格数据集,第二个是带有广告价格的子集。我们的目标是以房地产经纪人的方式预测价格,但当然,房地产经纪人的预测很昂贵,所以我们没有足够的数据,我们也使用来自广告的数据。所以我在问用广告中的目标值处理子集的最佳方法是什么。

1个回答

这通常被称为弱监督、嘈杂、有限或不精确的目标值。

一种选择是训练代理模型使用房地产经纪人的价格作为基本事实,然后训练一个模型来“翻译”广告价格以模仿房地产经纪人的价格。