剩余的较高水平方差告诉我什么?

机器算法验证 回归 混合模式 方差 残差
2022-03-26 01:50:59

我有一个多级逻辑回归模型来预测项目不响应的概率,其中国家级的随机截距方差对不同国家具有以下分布(无条件模型):

在此处输入图像描述

考虑到国家代码Belgium (BE), Bulgaria (BG), Croatia (HR), Cyprus (CY), Czech Republic (CZ), Denmark (DK), Estonia (EE), Finland (FI), France (FR), Germany (DE), Greece (GR), Hungary (HU), Ireland (IE), Israel (IL), Lithuania (LT), Netherlands (NL), Norway (NO), Poland (PL), Portugal (PT), Russian Federation (RU), Slovakia (SK), Slovenia (SI), Spain (ES), Sweden (SE), Switzerland (CH), United Kingdom (GB) and Ukraine (UA),很明显,与平均水平相比,西方国家的赔率较低,而东方国家的赔率较高,而葡萄牙则无视这一趋势。我假设这种差异是由于人口组成和特定国家特征的差异造成的。输入一些人口统计变量来预测国家差异的几率(年龄、性别、教育)并没有解释太多,除了葡萄牙现在更好地遵循西方与东方的趋势。这是否意味着葡萄牙更高的几率是由于组合效应,而其他国家的几率更低?

在此处输入图像描述

然后我还添加了一个国家变量:管理模式(PAPI = 纸笔面试和 CAPI = 计算机辅助面试)。这解释了国家之间赔率的很多差异,并消除了一点西-东趋势:

在此处输入图像描述

但是,我知道大多数西方国家是 CAPI 国家,而大多数东方国家是 PAPI 国家:

在此处输入图像描述

我的预测“模式”是否可能与赔率无关,但实际上解释了变异性,因为它明确区分了东方和西方国家?

1个回答

这是可能的。如果您编写一个东西向变量,一个简单的二进制变量。检查它与您的模式变量的相关性。如果它们高度相关,则可能存在多重共线性。即您的模式变量实际上可能正在解释东西分界。