机器算法验证 - 线性回归预测因变量的均值和 SD - 吾爱随笔录

想象一下，我们要调查一个虚构人群中人们的年收入和日常食物支出之间的关系。下面的例子并不现实，但希望能说明这一点。

我们定义了十个收入组：100K、200K、300K 等，最高可达 100 万。对于每个组，我们找到 1000 名拥有这些收入的人，并询问他们平均每天在食物上的花费。我们为每个组找到以下分布（应用抖动以获得更好的可视化）：

我们计算每组的平均值和 SD。然后我们使用简单的线性回归，发现收入与我们找到的均值之间存在线性关系，并且收入与 SD 之间也存在线性关系（即 SD 随着收入的增加而增加）。

我们还发现可以为每个组拟合对数正态分布。这使我们能够建立一个模型，可以预测任何收入的支出百分比（至少在该范围内）：

想象一下，我们无法访问这 10 个纯收入组，而是简单地询问例如 600 个随机人（来自与以前相同的人口）他们的收入和食物支出，并发现：

当收入变量没有分成离散的、大小相等的组时，是否可以近似第二个图中显示的百分位数？残差是异方差的，我们假设它们也像以前一样呈对数正态分布。