可视化自变量和二元响应之间的关系

机器算法验证 数据可视化 二进制数据
2022-04-16 16:01:24

我有大约 14.000 个观察值,有一个自变量interactions和一个因变量accuracy准确率可以是 0(错误分类)或 1(真实分类)。如下图所示,两者之间存在微弱但具有统计学意义的关系(晶须指定 95% 的置信区间)。

在此处输入图像描述

我想在交互的可能值上绘制一个平滑的图,而不是像上图中那样对它们进行分箱。我已经尝试在 R 中使用 GAM 来做到这一点,但我最终得到了下图,这显然是错误的。我也尝试过逻辑回归,它最终成为一条直线,因此没有捕捉到interactions = 100.

在此处输入图像描述

如何获得两个值之间关系的平滑图,以捕获准确性的初始上升然后收敛interactions=100如果也可以推断出置信区间,那将是首选。数据可以在codeshare.io找到。超过 400 的交互并不有趣,因此如果需要,可以将它们排除在外。

1个回答

我无法谈论建模(除了猜测 100 附近的弯曲太尖锐而无法被逻辑曲线捕获),但可视化的想法是将您的分箱想法发挥到极致。为每个可能的值考虑一个 bin,interactions它在每一侧都扩展了一些固定的数量。计算每个箱的平均值和 CI。但不是绘制 100 条间隔条,而是将均值绘制为一条连接线,将 CI 的上限和下限绘制为一个区域。

这是我用您的数据(感谢分享!)和 +/- 25 的箱制作的图。我平滑了平均值,因为它很容易在我的软件中完成并且可以更好地传达趋势。我没有平滑置信区间限制只是因为它会更难。如果我使用了加权,那么所有计算的 bin 统计数据可能会更平滑,以便每个 bin 的中心值计数更多。

在此处输入图像描述

关于移动箱的更多信息:对于每个interaction值,比如 57,我查看了区间 +/25,即 [32 .. 82)。对于该范围内的所有值(本例中为 3071),我计算了平均值和标准误差。每个间隔可能有不同的计数,但 SE 会考虑该数字。其他方法(如黄土)通常着眼于等数的加权区间。我不知道这两种方法的统计优点,但该图至少可以用来建议一个比逻辑曲线更好的非线性函数。

Colophon:我在 JMP 中以交互方式制作了图表。该图是 JMP 的 Graph Builder 中平滑元素和面积元素的相对简单的组合。困难的部分是使用表格公式列计算 bin 统计信息。