在我的逻辑回归中,变量系数的符号(便利设施的位置距离)会根据模型中的其他变量(时间 -ve,旅行距离 +ve)而变化。当位置距离是模型中唯一的变量时,它有+ve符号。
- 无论模型中添加了哪些其他变量,变量是否都需要保持 +ve 符号?
- 改变符号是否意味着多重共线性问题?一些 IV 正在获得显着性,而在双变量模型中,它们没有显示出显着性,反之亦然。
- 是否可以添加意义不大的变量(例如:行驶距离的意义分别为 0.33,但与其他变量一起添加时为 0.05)但在模型中变得重要?谢谢。
在我的逻辑回归中,变量系数的符号(便利设施的位置距离)会根据模型中的其他变量(时间 -ve,旅行距离 +ve)而变化。当位置距离是模型中唯一的变量时,它有+ve符号。
除了评论中指向辛普森悖论的链接之外,这里还有另一种思考方式。
想象一个数据集,该数据集通过计算不同人持有的硬币的数量和类型来收集(我将使用美国货币作为示例,但也可以将其转换为其他货币)。
现在我们创建 3 个变量,变量 y 是指示找零总额是否超过 1 美元($ 1.00),x1 是硬币的总数,x2 是便士($ 0.01)和镍币($ 0.05)(这将是 x1 的子集)。现在,如果单独回归,我们会期望 x1 和 x2 的系数为正,硬币越多,总数超过1美元的可能性就越大。但是如果一起放入回归模型中,那么 x2 上的系数变为负数是有意义的,请记住,单个系数的定义是在保持其他变量不变的情况下,当x 变化 1 个单位时, y 的变化(或者在逻辑情况下是 y 的对数几率的变化). 因此,如果我们有相同数量的总硬币 (x1) 但增加小价值硬币的数量 (x2),那么我们拥有的大价值硬币较少,因此总价值超过1美元的机会较小。
在模型中存在其他人的情况下,预测者确实会改变他们的符号。我认为您正在看到“压制”的特殊情况。让我用相关性来解释(这个原则应该适用于逻辑回归)。假设您试图根据火灾的严重程度 ( ) 和派出扑灭火灾的消防员人数 ( )来预测对房屋造成的火灾损害程度 ( )。假设。然后,如果你计算半偏相关,
这是一种抑制情况(尽管非常轻微),因为抑制了未解释的方差,导致。此外,的半偏相关()改变了符号,因为它与 Y 的正相关主要是通过其与的大正相关。从概念上讲,这是有道理的:如果火灾的严重程度保持不变,派遣更多的消防员应该会减少对房屋的破坏(Messick 和 Van de Geer,1981 年)。
在您的情况下,您需要考虑在保持时间变量不变的情况下,舒适设施的位置距离与因变量负相关是否有意义。我还在 Cross Validated 中推荐了一些关于这个问题的好帖子
回答您的其他问题,我不认为您的数据存在多重共线性;否则,所有预测变量都应显示膨胀的标准误差和较低的 p 值。最后,当然您可以将行驶距离变量添加到模型中,因为它的真实关系似乎被不相关的方差(被其他预测变量“抑制”)掩盖了。
这实际上取决于您通过设计研究试图回答的原始问题。
Messick, DM & Van de Geer, JP “逆转悖论”。心理公报 90.3 (1981): 582。
在我的逻辑回归中,变量系数的符号(便利设施的位置距离)会根据模型中的其他变量(时间 -ve,旅行距离 +ve)而变化。当位置距离是模型中唯一的变量时,它有+ve符号。
这并不奇怪。它也发生在普通回归中。在此处查看图片中的示例
无论模型中添加了哪些其他变量,变量是否都需要保持 +ve 符号?
我不明白为什么会出现这种情况。
改变符号是否意味着多重共线性问题?
不一定是多重共线性;它可以以非常普通的非正交性发生。
一些 IV 正在获得显着性,而在双变量模型中,它们没有显示出显着性,反之亦然。
当然,也很常见。
是否可以添加意义不大的变量(例如:行驶距离的意义分别为 0.33,但与其他变量一起添加时为 0.05)但在模型中变得重要?
当然。添加在任何一种情况下都不重要的变量也是可以的(尽管如果您输入大量变量可能会导致问题。但是,听起来您正在选择变量;在解释 p 值时要非常谨慎/test 执行此操作时的统计信息。
我认为这可能是在其他条件不变的情况下混淆的情况。当旅行距离是唯一变量时,对结果的影响是积极的。如果结果是购买,这可能是因为当代理人住在远方时,去商店的旅行更贵,所以如果他已经在那里,他更有可能囤积。与住得近的人相比,住得远的人一路上都装满了车,但出行次数更少。如果你只在模型中使用旅行时间作为你的成本衡量标准,我敢打赌甜甜圈这也是你会发现的。
当您在模型中同时具有行驶距离和行驶时间时,距离系数的符号为您提供了保持行驶时间固定的效果的符号。当距离变长,但旅行时间保持不变时,效果变为负数。距离怎么会变长,但旅行时间保持不变?如果路上行驶的速度变快了,或许是因为这是一条限速更高的高速公路。当两个变量都在模型中时,您现在所做的比较是在两个相同的人之间进行的,他们都住在离一家商店只有几分钟的路程,但一个人住得更远,要走高速公路才能到那里。该代理不太可能进行购买,也许是因为在高速公路上行驶比在当地道路上更容易使用汽油,或者也许这是他通勤上班的道路并且他在回家的路上经过商店(a模型中的一种省略变量)。
综上所述,当回归量不同时,系数对应不同的思想实验比较,解释也相应发生变化。变化的符号不一定表示多重共线性。变量选择应该由理论、仔细思考和您的最终目标驱动。