机器算法验证 - 线性回归和每位员工的成本与总成本 - 吾爱随笔录

谢谢你看我的问题！

以下是一些背景信息：我的雇主拥有许多（非常机密的）关于众多公司（包括公共和私人公司）的数据，涉及广泛的行业。

我正在探索一些部门成本数据，对我的分析结果有一些疑问。我可以访问数百家公司的每个最终用户的部门成本和最终用户总数。因此，对于 ABC Inc. 公司，每个最终用户可能需要1000美元，有 275 个最终用户，部门总成本为275,000 美元。

我第一次尝试为这些数据建立一个简单的回归模型导致 $ln(\text{Total Cost}) = \beta_0 + \beta_1 ln(\text{End Users})$

模型看起来很棒！R 平方在 0.8 左右，残差近似正常（直方图和分位数分位数图），残差与拟合图未显示异方差！此外，对数对数模型对斜率系数有非常直接的解释。

由于我的老板有兴趣确定每个最终用户数据的成本是否存在规模经济，因此我对拟合值进行了反向转换（不用担心，我没有反向转换任何置信区间。我知道这是一个禁忌）使用指数，然后将每个拟合成本除以最终用户，以获得每个最终用户的成本估计值。

将这些数据与观察到的每位最终用户成本与最终用户散点图进行对比，得出了一条非常适合数据趋势的曲线！每个最终用户的成本随着最终用户的增加而降低（以递减的速度）。

但是，当我尝试以每位最终用户的成本作为响应并以最终用户作为预测变量来执行回归时，没有任何转换会产生线性关系，并且回归模型的 R 平方都在 0.07 左右。

为什么总成本和最终用户之间的关系几乎可以通过 log-log 模型完美建模？我确定我忘记了数学统计中的某些内容。

我担心我的分析是错误的，因为我不知道。

感谢您的任何提示！

编辑：根据我对 Whiber 的评论添加的图片。删除轴值以帮助保护数据的机密性。我的雇主非常重视这些东西。