机器算法验证 - 对于二元 Y，为什么 R 的低拟合如此频繁？ - 吾爱随笔录

我正在尝试探索（而不是正式测试）连续 X 和二进制 Y（0 或 1）之间的各种子组的关系。一个好的捷径似乎是为每个子组绘制平滑的 XY 拟合图。但即使在 X 的不同水平上，Y 的平均值在 0.1 到 0.3 之间，R 的平滑拟合线通常只是简单地拥抱 Y=0 的水平线。这根本没有提供信息，实际上似乎不准确。

我尝试了几种不同的方法来获得更平滑的以及许多不同的 f 值。例如：

x=runif(500,0,1)  #x is continuous
y=1:500
y=ifelse(y < 100,1,0)  #y is now binary with mean ~ 0.2

z=1:500
z=ifelse(z<50 | (z<300 & z>100),1,0)  #z is binary too


plot(x [z==1], y [z==1])
m=lowess(x[z==1], y[z==1])
lines(m, col='blue')  #The line hugs the points at y=0
windows()
scatter.smooth(x [z==1], y[z==1])

在这种情况下，最后一行确实产生了预期的拟合线，但是当我使用真实数据时，这不是一个可靠的情况。