用负值模拟航班延误

机器算法验证 回归 广义线性模型 造型 预测模型 负二项分布
2022-04-14 07:02:58

用负值模拟航班延误

我正在研究一个模型来预测航班是否会延误。数据包含来自特定机场的航班的一些解释变量。我最初认为将其建模为计数数据将是一个好主意,但正如评论中所指出的那样具有误导性。

响应变量是偏离初始出发时间的分钟数。我有一些关于要使用的航班的解释变量,即日期、旅行距离等。不过,我没有任何天气变量。

下面是数据的直方图。我有一个正偏态分布,我正在考虑什么样的分布将是一个很好的模型。

数据直方图

我现在在问,什么样的模型适合这种数据?主要目标是进行预测。

我的一个想法是首先训练一个分类器来确定航班是否会延误,然后使用回归模型预测它会变得多晚,但如果是这种情况,我也想预测它有多早。

我想我会用逻辑回归来预测一个航班是晚点还是早点,然后为这两个类别构建一个预测模型。您对模型有什么想法可以很好地预测与设定起飞时间的偏差,条件是延迟起飞还是提前起飞?

编辑以消除我对计数数据的困惑。

1个回答

首先,我同意这不是计数数据。

如果有很多航班被取消,那么您可能会将其视为事件数据的时间并研究生存分析方法。这可能取决于您所在的时间和地点:冬天从芝加哥起飞的航班比 5 月从凤凰城起飞的航班多。

除此之外,您可以尝试分位数回归;我建议这样做有两个原因:首先,您可能对长时间的延迟特别感兴趣。如果您从乘客 POV 对此感兴趣,那么短暂的出发延误可能根本不重要 - 这些通常是在飞行期间弥补的,我认为大多数乘客更关心到达时间而不是出发时间。但是,如果您是机场经理,那么即使是短暂的延误也可能是调度跑道等方面的问题。分位数回归可让您对分位数进行建模。其次,分位数回归不对残差的分布做任何假设。

对于提早出发,我认为您必须弄清楚提早出发是更好还是更差或相当于准时出发。