我正在研究一个简单的线性回归模型,该模型根据起点和目的地之间的距离预测每辆卡车的成本。让我们假设成本和距离之间存在良好的线性关系。我有约 250K 货物的历史数据,对应于约 2000 条车道(始发地、目的地对)。
该模型的目标是预测新车道的成本(我没有历史数据)并获得置信/预测区间。
一些随机的虚拟数据 -
# A tibble: 10 x 4
Lane Distance ShipmentNo Cost
<chr> <dbl> <int> <dbl>
1 A to B 100 1 812.
2 A to B 100 2 1055.
3 A to B 100 3 749.
4 A to B 100 4 1479.
5 A to B 100 5 1099.
6 C to D 500 6 754.
7 C to D 500 7 1146.
8 C to D 500 8 1221.
9 C to D 500 9 1173.
10 C to D 500 10 908.
我对两种方法感到困惑-
在发货级别构建模型,即每次发货都是成本与距离散点图上的一个数据点(250K 点)。数据分为训练数据集和测试数据集,即测试数据代表看不见的(新)出货量。在这种情况下,回归线表示给定距离的平均运输成本。这将如何转化为车道水平预测?使用预测的平均运输成本和95% 的置信区间作为新车道的预测是否有意义?
在车道级别(聚合级别)构建模型,即平均车道率(每条车道的总成本/总出货量)是成本与距离散点图上的数据点(现在 2000 条车道/点)。聚合数据分为训练和测试数据集,即测试数据代表看不见的(新)车道。我想,在这种情况下,回归线表示给定距离的平均车道率的平均值。使用平均车道率的平均值以及95% 的预测区间作为新车道的预测是否有意义?
不确定,但就我需要的详细程度而言,选项 2 似乎是正确的。但是,我担心通过汇总数据可能会丢失有关(甚至歪曲)单个货物的卡车成本变化的信息。此外,在选项 2 中,所有数据点(通道)似乎具有相同的重量,尽管某些通道可能比其他看起来不正确的通道有更多的出货量。
根据本网站上的其他答案,一般意见表明聚合是一个坏主意 - 但是我很想知道在我的情况下它是否合理,因为目标是预测车道率而不是单个装运率。
寻找我上述问题的答案,并就处理此问题的最佳方法提出建议。谢谢您的帮助!