用负值模拟航班延误
我正在研究一个模型来预测航班是否会延误。数据包含来自特定机场的航班的一些解释变量。我最初认为将其建模为计数数据将是一个好主意,但正如评论中所指出的那样具有误导性。
响应变量是偏离初始出发时间的分钟数。我有一些关于要使用的航班的解释变量,即日期、旅行距离等。不过,我没有任何天气变量。
下面是数据的直方图。我有一个正偏态分布,我正在考虑什么样的分布将是一个很好的模型。

我现在在问,什么样的模型适合这种数据?主要目标是进行预测。
我的一个想法是首先训练一个分类器来确定航班是否会延误,然后使用回归模型预测它会变得多晚,但如果是这种情况,我也想预测它有多早。
我想我会用逻辑回归来预测一个航班是晚点还是早点,然后为这两个类别构建一个预测模型。您对模型有什么想法可以很好地预测与设定起飞时间的偏差,条件是延迟起飞还是提前起飞?
编辑以消除我对计数数据的困惑。