机器算法验证 - 可视化自变量和二元响应之间的关系 - 吾爱随笔录

可视化自变量和二元响应之间的关系

机器算法验证数据可视化二进制数据

2022-04-16 16:01:24

我有大约 14.000 个观察值，有一个自变量interactions和一个因变量accuracy。准确率可以是 0（错误分类）或 1（真实分类）。如下图所示，两者之间存在微弱但具有统计学意义的关系（晶须指定 95% 的置信区间）。

在此处输入图像描述

我想在交互的可能值上绘制一个平滑的图，而不是像上图中那样对它们进行分箱。我已经尝试在 R 中使用 GAM 来做到这一点，但我最终得到了下图，这显然是错误的。我也尝试过逻辑回归，它最终成为一条直线，因此没有捕捉到interactions = 100.

在此处输入图像描述

如何获得两个值之间关系的平滑图，以捕获准确性的初始上升然后收敛interactions=100？如果也可以推断出置信区间，那将是首选。数据可以在codeshare.io找到。超过 400 的交互并不有趣，因此如果需要，可以将它们排除在外。

1个回答

我无法谈论建模（除了猜测 100 附近的弯曲太尖锐而无法被逻辑曲线捕获），但可视化的想法是将您的分箱想法发挥到极致。为每个可能的值考虑一个 bin，interactions它在每一侧都扩展了一些固定的数量。计算每个箱的平均值和 CI。但不是绘制 100 条间隔条，而是将均值绘制为一条连接线，将 CI 的上限和下限绘制为一个区域。

这是我用您的数据（感谢分享！）和 +/- 25 的箱制作的图。我平滑了平均值，因为它很容易在我的软件中完成并且可以更好地传达趋势。我没有平滑置信区间限制只是因为它会更难。如果我使用了加权，那么所有计算的 bin 统计数据可能会更平滑，以便每个 bin 的中心值计数更多。

在此处输入图像描述

关于移动箱的更多信息：对于每个interaction值，比如 57，我查看了区间 +/25，即 [32 .. 82)。对于该范围内的所有值（本例中为 3071），我计算了平均值和标准误差。每个间隔可能有不同的计数，但 SE 会考虑该数字。其他方法（如黄土）通常着眼于等数的加权区间。我不知道这两种方法的统计优点，但该图至少可以用来建议一个比逻辑曲线更好的非线性函数。

Colophon：我在 JMP 中以交互方式制作了图表。该图是 JMP 的 Graph Builder 中平滑元素和面积元素的相对简单的组合。困难的部分是使用表格公式列计算 bin 统计信息。

其它你可能感兴趣的问题

上一篇在图像分类中使用边缘检测下一篇基于似然的假设检验