我正在用 SPSS 教授逻辑回归课程。教科书提供了一个带有二元预测变量和两个数值协变量的样本数据集。该样本包含 1000 行,其中许多条目具有两个预测变量的共同值。例如,一个预测器只取 5 个值,而另一个预测器取大约 20 个不同的值。
根据 SPSS 的文档,当发生这种情况时,SPSS 将数据视为来自通过公共值定义的子群体。这似乎为 AIC 产生了与忽略亚群时不同的可能性和不同的自由度。
我使用 glm 在 R 中运行数据集。自由度为997,AIC=508.93
在 SPSS 上,我得到 99 个自由度(出于拟合优度的目的)和 AIC=181.341。两种应用中的系数估计值相同。
更糟糕的是,当我在 SPSS 中仅使用 2 个预测变量中的 1 个来拟合模型时,可能性比使用 2 个预测变量的模型大:2 参数模型为 -87,1 参数模型为 -47。AIC 在 1 参数模型中也显着减小,但其他一切都表明这两个预测变量都很重要且必要。AIC 标准就这么多。
我在 R 中抖动数据,然后将其发送回 SPSS。然后,我得到了与使用 glm 的 R 中相同的结果,因为 SPSS 没有需要处理的幻影“亚群”。
问题:
- 当预测变量包含公共值集时,有人可以提供参考来证明将数据视为来自子群体(在这种情况下实际上不是)是合理的吗?
- 考虑到发生了什么,我应该如何通过比较两个模型之间的偏差来教授模型测试,使用 SPSS 和这个数据集?
- 我可以让 SPSS 表现得像 R 吗?