我该如何解决这个问题?
数据挖掘
时间序列
模型选择
2022-02-17 22:57:55
2个回答
您当然需要添加至少一个代表一年中时间的其他变量,因为从您的图表中可以清楚地看出,仅使用出发前的时间无法准确预测票价:同一天您可以有许多点代表不同的票价. 这是有道理的,因为票价会根据航班是否发生在假日季节而有很大不同。可能还有其他有趣的变量,但由于它总是同一个航班,我想不出任何变量。
我建议绘制一个图表,其中 x 是一年中的时间,出发前的时间用颜色或渐变表示,这应该会让事情更清楚。
是的,您可以制作模型,但距离出发的天数只是决定价格的一个特征。我同意 Erwan 的观点,即一年中的某个时间很重要。我想说的是入住率(预订的座位数除以最大座位数)可能更重要。
如果你从航空公司的角度考虑这个问题,如果他们卖出的机票比平时多,他们就会让机票更贵。反之亦然,如果售出的门票较少,他们就会使门票更便宜。
在您的散点图中,您可能正在比较具有不同入住率的航班。离出发只有几天的时间,有些票接近其最高价格(约 90;可能(几乎)所有座位都已预订),而有些票则便宜得多(约 30;可能比平时还剩更多座位)。
一个非常简单的模型是:
其中 y = 价格,x = 离出发天数,以及和是参数。
要制作一个好的模型,您需要更多的功能。
