我该如何解决这个问题?

数据挖掘 时间序列 模型选择
2022-02-17 22:57:55

假设我有一个数据集,其中包含去年同一航班的定价信息。因此,对于在 D 日起飞的航班,我的可用价格从 D-130 到 D(起飞日)。对于一年中其他 365 天的航班,每天相同的出发时间也是如此。这有意义吗?我想看看未来任何出发日的今天价格是否高于或低于预期,因此是否预计会上涨。

将这些数据绘制在图表上,X 轴是出发前的几天,Y 轴是价格,我得到以下信息:

阴谋

如何塑造数据以便训练价格预测模型?我看不到明显的趋势。低于90的价格意味着它是最高价格并且不打折。

2个回答

您当然需要添加至少一个代表一年中时间的其他变量,因为从您的图表中可以清楚地看出,仅使用出发前的时间无法准确预测票价:同一天您可以有许多点代表不同的票价. 这是有道理的,因为票价会根据航班是否发生在假日季节而有很大不同。可能还有其他有趣的变量,但由于它总是同一个航班,我想不出任何变量。

我建议绘制一个图表,其中 x 是一年中的时间,出发前的时间用颜色或渐变表示,这应该会让事情更清楚。

是的,您可以制作模型,但距离出发的天数只是决定价格的一个特征。我同意 Erwan 的观点,即一年中的某个时间很重要。我想说的是入住率(预订的座位数除以最大座位数)可能更重要。

如果你从航空公司的角度考虑这个问题,如果他们卖出的机票比平时多,他们就会让机票更贵。反之亦然,如果售出的门票较少,他们就会使门票更便宜。

在您的散点图中,您可能正在比较具有不同入住率的航班。离出发只有几天的时间,有些票接近其最高价格(约 90;可能(几乎)所有座位都已预订),而有些票则便宜得多(约 30;可能比平时还剩更多座位)。

一个非常简单的模型是:

y=α+βx

其中 y = 价格,x = 离出发天数,以及αβ是参数。

要制作一个好的模型,您需要更多的功能。