线性回归预测因变量的均值和 SD

机器算法验证 线性模型 异方差 对数正态分布
2022-04-10 13:45:34

想象一下,我们要调查一个虚构人群中人们的年收入和日常食物支出之间的关系。下面的例子并不现实,但希望能说明这一点。

我们定义了十个收入组:100K、200K、300K 等,最高可达 100 万。对于每个组,我们找到 1000 名拥有这些收入的人,并询问他们平均每天在食物上的花费。我们为每个组找到以下分布(应用抖动以获得更好的可视化):

收入与支出

我们计算每组的平均值和 SD。然后我们使用简单的线性回归,发现收入与我们找到的均值之间存在线性关系,并且收入与 SD 之间也存在线性关系(即 SD 随着收入的增加而增加)。

我们还发现可以为每个组拟合对数正态分布。这使我们能够建立一个模型,可以预测任何收入的支出百分比(至少在该范围内):

在此处输入图像描述

想象一下,我们无法访问这 10 个纯收入组,而是简单地询问例如 600 个随机人(来自与以前相同的人口)他们的收入和食物支出,并发现:

在此处输入图像描述

当收入变量没有分成离散的、大小相等的组时,是否可以近似第二个图中显示的百分位数?残差是异方差的,我们假设它们也像以前一样呈对数正态分布。

2个回答

由于您对建模百分位数感兴趣,您应该看看分位数回归方法。分位数回归允许您对(条件)分位数进行建模,而不是对条件均值进行建模(如在线性回归中)。

正如评论中提到的,分位数回归的一个很好的介绍是quantreg R 包的小插图。小插图中的一个示例说明了您的用例:

分位数回归,来自 quantreg vignette 的示例

在这种情况下,尝试预测每日支出的对数是有意义的——这可能更接近线性,因此更容易预测。