我正在建立一个模型来预测,比如房价。在我的数据中,我有销售和租金。Y变量是销售或租金的价格。我还有许多X变量要预测Y,例如卧室数量、浴室数量、平方米等。
我相信该模型将首先对变量“销售”与“租金”进行拆分,因为这将最大程度地减少损失函数 - RMSE。
您认为最好训练 2 个模型,一个用于“销售”,另一个用于“租赁”?该模型的 RMSE 相当高,部分原因是“销售”预测不正确。
我正在建立一个模型来预测,比如房价。在我的数据中,我有销售和租金。Y变量是销售或租金的价格。我还有许多X变量要预测Y,例如卧室数量、浴室数量、平方米等。
我相信该模型将首先对变量“销售”与“租金”进行拆分,因为这将最大程度地减少损失函数 - RMSE。
您认为最好训练 2 个模型,一个用于“销售”,另一个用于“租赁”?该模型的 RMSE 相当高,部分原因是“销售”预测不正确。
这是 ML 的主要优点:如果变量具有任何预测值(不包含在另一个变量中),则模型应该使用它。所以,一般来说,手工挑选你的变量来制作不同版本的模型是没有意义的(但是挑选一些你想要抛出的变量是有意义的)。这相当于在你的第一棵树中选择第一个二叉树......你并没有取得太大的成就。
编辑:好的,似乎目标并没有很好地定义,因为您汇总了每月付款的事物和房屋价值的事物。在这种情况下,有两个模型是有意义的。(老实说,首先不聚合这两个不同的数据集甚至更有意义)。