交叉随机效应和不平衡数据

机器算法验证 r 混合模式 随机效应模型 物流
2022-03-30 02:52:22

我正在对一些数据进行建模,我认为我有两个交叉随机效应。但是数据集是不平衡的,我不确定需要做些什么来解释它。

我的数据是一组事件。当客户端与提供者会面以执行任务时发生事件,该任务成功与否。有成千上万的客户和供应商,每个客户和供应商都参与了不同数量的活动(大约 5 到 500 个)。每个客户和提供者都有一定的技能水平,任务成功的机会取决于两个参与者的技能。客户和供应商之间没有重叠。

我对客户和提供商群体的各自差异感兴趣,因此我们可以知道哪个来源对成功率的影响更大。我还想知道我们实际拥有数据的客户和供应商的技能的具体价值,以确定最佳/最差客户或供应商。

最初,我想假设成功的可能性完全取决于客户和提供者的综合技能水平,没有其他固定影响。因此,假设 x 是客户端的一个因素,而 y 是提供者的一个因素,那么在 R 中(使用包 lme4)我有一个模型指定为:

  glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events)

一个问题是客户在供应商之间分布不均。更高技能的客户更有可能与更高技能的提供者相匹配。我的理解是随机效应必须与模型中的任何其他预测变量不相关,但我不确定如何解释它。

此外,一些客户和提供者的事件很少(少于 10 个),而另一些则有很多(最多 500 个),因此我们拥有的每个参与者的数据量分布广泛。理想情况下,这将反映在每个参与者技能估计周围的“置信区间”中(尽管我认为置信区间一词在这里并不完全正确)。

由于数据不平衡,交叉随机效应是否会出现问题?如果是这样,我应该考虑哪些其他方法?

1个回答

至于不平衡数据,glmer 能够处理不平衡组:与仅限于平衡设计的重复测量方差分析相比,这实际上是开发混合模型方法的重点。包括事件很少(甚至只有一个)的客户或提供者仍然比忽略它们更好,因为它提高了对残差方差的估计(参见Martin等人, 2011 年)。

如果你想使用 BLUP ( ranef(model)) 作为技能的代表,你确实必须估计你的点预测周围的不确定性。这可以在频率论框架中使用ranef(model, postVar=TRUE)或通过贝叶斯框架中的后验分布来完成。但是,您不应在进一步的回归模型中使用 BLUP 作为响应变量:请参阅Hadfield等人。(2010 年)关于滥用 BLUP 的示例以及充分考虑其不确定性的不同方法。

至于客户和提供者之间的技能相关性,如果这种不平衡非常强,则可能会出现问题,因为它会阻止正确估计每个随机效应引起的方差。似乎没有一个混合模型框架可以轻松处理随机截距之间的相关性(有关您的问题的正式表达,请参见此处)。您能否准确说明客户和提供商的平均成功之间的相关性?