从逻辑回归中的分类预测变量计算预测值

机器算法验证 数据可视化 物流 分类数据
2022-04-13 13:27:50

语境:

我正在使用序数逻辑模型并尝试解释/呈现结果。该模型有两个连续的兴趣预测变量,以及连续和分类控制的混合。我希望在我感兴趣的多个级别的 IV 中绘制出最佳结果(被学校录取)的预测可能性。

我正在使用 R 的 predict() 函数来生成预测的可能性。对于我感兴趣的 IV,我选择了一系列合理的值(即平均值 +- 1 SD)。对于连续预测变量,我可以使用合理的基线值(通常为 0),因为它们是以均值为中心或标准化的。

我正在尝试研究如何处理分类预测变量。我通过插入不同的值来探索我的选择,在大多数情况下,结果只是输出曲线的一个小变化。然而,对于一个变量,差异是巨大的,所以我需要找到一种方法来呈现该变量不同级别的通用结果。

也许一个例子可以帮助澄清。在这两个图中,两个感兴趣的 IV 绘制在 x 轴上并作为 3 条线绘制。每个图表都显示了给定我麻烦的分类控制的单个级别的输出,“录取学校”(总共有 4 个级别)

在此处输入图像描述 在此处输入图像描述

其他图表和 R 语法在这里如果你很好奇

问题:

  • 我应该如何在单个图中表示所有级别的分类变量的模型?

初步想法:

  • 使用某种加权平均值汇总每个入学学校级别的预测值。
  • 这篇文章建议使用每种类型的案例比例作为每个变量的输入。例如,如果我 32% 的案例来自学校 1,我将在预测公式中使用 .32*B-school1。我不知道如何在 R 中做到这一点,因为这些变量是因素,但如果它是一种适当的方法,我相信我可以弄清楚。

抱歉冗长,并在此先感谢您的帮助。

1个回答

我最初的想法是使用某种格子显示来显示被接受的概率作为你四所学校中每一所的相对 GPA 的函数。在这种情况下,分面应该可以很好地完成工作,因为学校的数量并不多。使用lattice ( y ~ gpa | school) 或ggplot2 ( )很容易做到这一点facet_grid(. ~ school)事实上,你可以选择你想要的条件变量:这可以是学校,也可以是本科院校的情况。在后一种情况下,每个图有 4 条曲线,以及Prob(admitting) ~ GPA.

现在,如果您正在寻找 GLM 中效果的有效显示,我会推荐 John Fox 提供的效果包。目前,它适用于二项式和多项式链接,以及序数逻辑模型。对其他协变量的边缘化是在内部处理的,因此您不必为此烦恼。在线帮助中有很多插图,请参阅help(effect)但是,要更全面地了解 GLM 中的效果显示,请参阅

  1. 福克斯(2003 年)。R 中用于广义线性模型的效果显示JSS 8(15)。
  2. 福克斯和安徒生(2004)。多项式和比例优势 logit 模型的效果显示ASA 方法论会议——这是相应的JSS 论文