是否使用聚合数据进行线性回归?

机器算法验证 回归
2022-03-13 05:08:53

我正在研究一个简单的线性回归模型,该模型根据起点和目的地之间的距离预测每辆卡车的成本。让我们假设成本和距离之间存在良好的线性关系。我有约 250K 货物的历史数据,对应于约 2000 条车道(始发地、目的地对)。

该模型的目标是预测新车道的成本(我没有历史数据)并获得置信/预测区间。

一些随机的虚拟数据 -

# A tibble: 10 x 4
     Lane   Distance ShipmentNo  Cost
    <chr>      <dbl>      <int> <dbl>
 1 A to B        100          1  812.
 2 A to B        100          2 1055.
 3 A to B        100          3  749.
 4 A to B        100          4 1479.
 5 A to B        100          5 1099.
 6 C to D        500          6  754.
 7 C to D        500          7 1146.
 8 C to D        500          8 1221.
 9 C to D        500          9 1173.
10 C to D        500         10  908.

我对两种方法感到困惑-

  1. 在发货级别构建模型,即每次发货都是成本与距离散点图上的一个数据点(250K 点)。数据分为训练数据集和测试数据集,即测试数据代表看不见的(新)出货量。在这种情况下,回归线表示给定距离的平均运输成本。这将如何转化为车道水平预测?使用预测的平均运输成本和95% 的置信区间作为新车道的预测是否有意义?

  2. 在车道级别(聚合级别)构建模型,即平均车道率(每条车道的总成本/总出货量)是成本与距离散点图上的数据点(现在 2000 条车道/点)。聚合数据分为训练和测试数据集,即测试数据代表看不见的(新)车道。我想,在这种情况下,回归线表示给定距离的平均车道率的平均值。使用平均车道率的平均值以及95% 的预测区间作为新车道的预测是否有意义?

不确定,但就我需要的详细程度而言,选项 2 似乎是正确的。但是,我担心通过汇总数据可能会丢失有关(甚至歪曲)单个货物的卡车成本变化的信息。此外,在选项 2 中,所有数据点(通道)似乎具有相同的重量,尽管某些通道可能比其他看起来不正确的通道有更多的出货量。

根据本网站上的其他答案,一般意见表明聚合是一个坏主意 - 但是我很想知道在我的情况下它是否合理,因为目标是预测车道率而不是单个装运率。

寻找我上述问题的答案,并就处理此问题的最佳方法提出建议。谢谢您的帮助!

2个回答

我建议通过拟合线性混合效应模型来利用所有数据。这是一个包含固定效应和随机效应的模型。如果您汇总数据,那么您会丢失信息,而如果您没有考虑到某个车道的成本与该车道的成本比其他车道的成本更相似的概率,那么您将获得有偏差的结果。

为此,您只需为车道拟合随机截距。lme4in R 包为例,它看起来像:

lmer(cost ~ distance + (1 | lane), data = mydata)

车道变量被视为随机变量,因为它可以被认为是您拥有的变量不止几个(5-10 经常被称为最小值,尽管在这个问题上没有达成共识:您有 2000,所以这根本不是问题),然后每个车道都有自己的截距,它在全局截距周围随机变化(这相当于没有随机效应的模型中的“截距”)。我们这样做是为了控制每条车道内观察/测量的非独立性,否则很可能出现有偏差的结果。

您还可以通过添加随机坡度来允许每条车道的距离效果不同:

lmer(cost ~ distance + (distance | lane), data = mydata)

最后,您还可以通过在模型方程中包含非线性项或使用样条曲线来允许距离对成本产生非线性影响。

上述模型将帮助您了解现有车道的距离和成本之间的关联,它还将帮助您了解各个车道的成本变化,在随机坡度模型的情况下,还可以查看两者之间的关联车道之间的成本和距离不同。但是,您说您对预测以前从未见过的新车道感兴趣。为了解决这个问题,需要更多关于车道实际情况的信息。

首先,我会尝试回答问题。每个车道之间的成本/距离关系在统计上是否不同?如果是,差异是否足以影响我们的应用程序/问题?如果否,请使用汇总数据。否则,我们需要做一些简单的思想实验,看看使用聚合/非聚合数据意味着什么。

假设 50% 的车道成本10 美元/公里,50 % 的车道成本为 2美元/公里。平均为 6美元/公里。但这对做出预测有任何意义吗?我会说对以前看不见的车道的 6美元/公里预测是错误的。如果所有车道都相似,则费用10 美元/公里或2美元/公里。但数百条新车道的平均价格将接近6美元/公里。

使用聚合或非聚合数据可以回答不同的问题。

希望这有所帮助。