我正在用L1规范估计二元逻辑回归。根据回归系数, 的系数符号x1为正。但是,描述性统计表明第x10 类变量的平均值大于第 1 类变量的平均值。
你能解释一下如何证明这种矛盾的结果吗?
应该注意的是,描述性统计是在自变量标准化之前计算的。
我正在用L1规范估计二元逻辑回归。根据回归系数, 的系数符号x1为正。但是,描述性统计表明第x10 类变量的平均值大于第 1 类变量的平均值。
你能解释一下如何证明这种矛盾的结果吗?
应该注意的是,描述性统计是在自变量标准化之前计算的。
这不是 L1 规范的问题,也不是逻辑回归的问题;它会发生在普通的 L2 范数多元线性回归中。一旦您以另一个变量为条件(包括附加功能),无条件关系的方向可能会改变。
考虑 4 个组,其中是一个增函数在每个组内,但四个组的平均值较低随着 x 的增加:
当然人口的在实践中是不可观察的;您只观察到 Y 为 1 的比例。但是,如果您在每个 x 值(例如 50 或其他值)处有许多重复,您实际上可以在每个 x 处观察到非常类似的样本比例。
现在,如果您仅将逻辑拟合到 y 与 x 值,而忽略组因子,您将得到一个负系数。但是,一旦您包含 group,x 的系数就会是正数。
[事实上,每次您添加附加功能时,标志甚至可能会翻转。]
进一步阅读: