我在 matemathics stackexchange 网站上问了这个问题,建议在这里问。
我正在从事一个爱好项目,需要一些帮助来解决以下问题。
一点上下文
假设有一组带有功能描述和价格的商品。想象一下汽车和价格的清单。所有汽车都有一个功能列表,例如发动机尺寸、颜色、马力、型号、年份等。对于每个品牌,如下所示:
Ford:
V8, green, manual, 200hp, 2007, $200
V6, red, automatic, 140hp, 2010, $300
V6, blue, manual, 140hp, 2005, $100
...
更进一步,带有价格的汽车列表是按时间间隔发布的,这意味着我们可以访问历史价格数据。可能并不总是包括完全相同的汽车。
问题
我想了解如何根据此基本信息为任何汽车建模价格,最重要的是不在初始列表中的汽车。
Ford, v6, red, automatic, 130hp, 2009
上面这辆车,和榜单中的一辆几乎一样,只是马力和年份略有不同。要定价,需要什么?
我正在寻找的是实用且简单的东西,但我也想听听更复杂的方法如何建模这样的东西。
我试过的
到目前为止,这是我一直在尝试的:
1)使用历史数据查找汽车X。如果没有找到,没有价格。这当然是非常有限的,人们只能将其与一些时间衰减结合使用,以随着时间的推移改变已知汽车的价格。
2) 将汽车特征加权方案与定价样车一起使用。基本上,有一个基本价格和功能只是通过某些因素改变它。在此基础上推导出任何汽车的价格。
第一个被证明是不够的,第二个被证明并不总是正确的,我可能没有使用权重的最佳方法。这似乎对保持权重有点沉重,所以这就是为什么我认为也许有某种方法可以使用历史数据作为统计数据以某种方式获得权重或获得其他东西。我只是不知道从哪里开始。
其他重要方面
- 集成到我拥有的一些软件项目中。通过使用现有库或自己编写算法。
- 当新的历史数据出现时快速重新计算。
有什么建议可以解决这样的问题吗?所有的想法都非常受欢迎。
非常感谢您,并期待阅读您的建议!