回归型散点图的边界或阈值检验

机器算法验证 回归 线性模型
2022-03-16 09:40:41

我正在寻找一种方法来测试生理反应中是否存在边界阈值——数据样本如下图所示。我的假设是 X 变量对 Y 值施加了生理约束,因此产生了最大 Y 值的边界“上限”,该边界“上限”在 X 值较高时减小(由图中的红线表示)。我假设边界以下的任何 Y 值都受到此模型中未包含的其他一些因素的限制。

本质上,我的目标是确定边界是否存在,如果存在,则得出边界线模型的置信区间——类似于线性回归模型,但描述的是 Y 值的上限,而不是质心。

我确信存在这样的东西,但我以前没有遇到过。此外,我将不胜感激任何关于这篇文章的更好标题或标签的建议——我认为我所描述的内容有更准确的术语,可以帮助人们找到这篇文章。

临界点

4个回答

当实际上不存在“边界”时,通常会出现这种模式。

在这里,我将 X 和 Y 生成为独立的右偏随机变量,但是会出现这样的模式:

在此处输入图像描述

我的情节中任何边界感的印象都是完全虚假的,但它看起来与你的非常相似。这个二元分布中有一个实际的垂直边界,但我可以生成非常相似的图,完全没有任何边界。)x=80

这是我用来生成绘图的代码(在 R 中):

x = rbeta(1000,1,10)*80
y = rbeta(1000,1,3)/1.5+.3
plot(x,y,ylim=c(0,1))

再试几次,它看起来大约有三分之一的时间给出了一个似乎有如此倾斜边界的情节。

毫无疑问,稍微摆弄一下分布可以提高它发生的时间比例,同时让它看起来更像你的图片(这个移位/缩放的 beta(1,10) beta(1,3) 是非常我尝试的第一个反例)。×

鉴于我的图片实际上没有任何边界,因此应该小心过度解释这种模式。你需要描述是什么使它成为一个不会在我给出的例子中产生大量误报的边界。

您可以对此类阈值使用基于排列的测试。

基于排列的测试

它检验阈值线上方的“数据稀疏”区域是否是由于随机机会的假设。

简单来说:

背后的基本思想是计算“数据稀疏”区域的面积并将其用作统计数据。下一步是随机排列散点图的 X 坐标并重复计算“数据稀疏”区域的面积。

概率 p 是计算面积超过原始面积的比例。如果 p 足够小,则“数据稀疏”区域被认为是重要的。

我将首先找到数据的“上包络”,然后将“包络”表示为直线或分段线性函数。

对于初学者,您可以将“包络”估计为分段常数函数 f(x) =max(yk, 给定 abs(x-xk) 低于 delta),其中 delta 是一个参数,例如 3 和 (xk, yk) 是您的数据点。通过点 (xk, f(xk)) 画一条直线应该很简单:)

我对如何解决这个问题的意图是:

  1. 计算线性模型以接收回归线r
  2. 计算所得回归线的法线向量 v
  3. 移动直到所有数据点都在之下。rvr

为了优化,您可以将其旋转某个角度并停止寻找您找到的最佳,可能使用残差平方和作为参考项。rαα

就像我试图在这个图中展示的那样:

在此处输入图像描述

另一种方法可能是使用支持向量机我不知道您的数据是否可行,但也许您可以生成一些位于数据上方的虚拟点,并使用 SVM 将它们与原始点分开。这只是我想出的一些想法。不过,我更喜欢第一种方法。