多元二元响应 - 关于回归策略的建议

机器算法验证 回归 多元分析 二进制数据 回归策略
2022-03-23 10:15:37

我将不胜感激有关如何处理以下情况的建议:我有一个计数变量 X 和四个二进制变量 A、B、C、D。计数变量是自变量(它指的是童年时期不良经历的数量) 并且二进制是因变量(它们指的是成年后的某些不利结果)。数据集中的受访者可以有任何结果组合,例如 A、AC、BCD 等。我想测量计数变量 X 与结果 A、B、C、D 之间的关联强度,条件是其他结果。

我不确定如何最好地解决这个问题。颠倒变量的作用并将计数变量 X 视为结果并将 AD 视为预测变量是否合理?所以这将是负二项式回归(存在过度分散)。通过这种方式,X 和 A (B, C…) 之间的关联将在保持其他二进制变量不变的情况下进行估计。但在我看来,从逻辑上讲,这将是狡猾的,因为我们会用后来发生的事情来预测早先发生的事情。

或者我应该改用 MANOVA(但我在某处读到结果的解释并不简单)。

或者我应该使用这里建议的广义线性混合模型(以前从未尝试过)https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2798811/

2个回答

您正在做出一个强有力的假设,即所有童年事件在预测成人结果方面具有相同的权重。但鉴于此,有几种可能的方法可以继续。以下是三种主要方法,您已经提到了其中一种。

  1. 在给定 4 个事件的结果状态的情况下,将问题倒转以预测童年事件的数量。使用半参数模型以免对计数施加分布,即比例优势序数逻辑模型。这种后向模型的参数将难以解释,但关联的整体测试和关联强度的整体测量将是有意义的。向后模型,当只有一个原始预测变量(如您的情况)时很有用,因为 X 预测 Y 的程度与 Y 在纯统计意义上预测 X 的程度相同。
  2. 对 4 个二元结果使用完整的多元模型。计量经济学有几个模型可以处理这种情况。请参阅 Greene 的《计量经济学分析》一书。
  3. 创建 A、B、C、D 的层次顺序,并为每个人分配发生在他们身上的 4 个事件中最糟糕的一个。使用半参数序数响应模型预测此序数结果。

你没有提到你的样本量,但这可能是一个问题。至少需要 96 个观测值来估计没有协变量的简单单一比例。

可以考虑多元概率模型,如 Frank Harrell 提到的 Greene 书中所述。另见 (Lesaffre 和 Mohlenberghs, 1991 Stat. Med 10, 1391-1403)。这个想法是考虑对每个事件的倾向或容忍度的多元正态(4维)分布。您将多元正态平均向量建模为自变量的四个函数。通过概率链接函数估计给定平均向量的每个事件的概率。

谷歌格林的书。你会发现一些有用的“链接”。