为什么描述性统计与回归系数相矛盾?

机器算法验证 物流 描述性统计 回归系数
2022-04-11 01:24:22

我正在用L1规范估计二元逻辑回归。根据回归系数, 的系数符号x1为正。但是,描述性统计表明第x10 类变量的平均值大于第 1 类变量的平均值。

你能解释一下如何证明这种矛盾的结果吗?

应该注意的是,描述性统计是在自变量标准化之前计算的。

1个回答

这不是 L1 规范的问题,也不是逻辑回归的问题;它会发生在普通的 L2 范数多元线性回归中。一旦您以另一个变量为条件(包括附加功能),无条件关系的方向可能会改变。

考虑 4 个组,其中p=Pr(Y=1)是一个增函数x在每个组内,但四个组的平均值较低p随着 x 的增加:

四组 P(Y=1) 对 x 的图; 该组意味着随着 x 的增加而降低,但在每个组内,关系是积极的

当然人口p的在实践中是不可观察的;您只观察到 Y 为 1 的比例。但是,如果您在每个 x 值(例如 50 或其他值)处有许多重复,您实际上可以在每个 x 处观察到非常类似的样本比例。

现在,如果您仅将逻辑拟合到 y 与 x 值,而忽略组因子,您将得到一个负系数。但是,一旦您包含 group,x 的系数就会是正数。

[事实上,每次您添加附加功能时,标志甚至可能会翻转。]

进一步阅读:

https://en.wikipedia.org/wiki/Simpson%27s_paradox

https://en.wikipedia.org/wiki/Omitted-variable_bias