什么是衡量数据集“线性”的好方法?

机器算法验证 信号处理
2022-03-03 12:17:13

我有一个根据经验收集的数据集,它涉及两个变量。在小范围内,该关系呈线性,但在较大范围内,显然存在一些二阶多项式关系,如http://imgur.com/W7f9p上的图像所示。

我正在尝试衡量所考虑的不同范围的线性度。例如,在 20 < x < 60 或 100 < x < 120 时,它是非常线性的,但在 20 < x < 180 时,它不是非常线性。我试图将一条直线拟合到数据并计算 R^2 数据(拟合优度),但这表明在较大范围内的直线比在较小范围内的拟合更好。虽然这对于 MS Excel 来说可能是正确的,但从图像中可以清楚地看出,较大的范围线性度较低……如果您将一张纸的一侧靠在这些点上。

有没有更好的方法来衡量数据集的“线性”?

4个回答

拟合二次函数而不是线性函数。二次方的最高系数估计值的绝对值可作为线性度的合理度量,如果数据正好位于一条线上,则该值为零。此外,如果数据来自具有高斯噪声的线性模型,则高斯-马尔可夫定理保证系数估计是无偏的,因此在与来自同一模型分布的多个数据重复拟合的情况下,系数的期望值为零。

当然,在一次拟合中,通常不会为零,因此必须对系数的显着性进行一些测试。

一种方法是以 Y 轴变量作为结果/标准运行分层回归。在步骤/块 1 中,您将输入 X 变量作为预测变量,在步骤/块 2 中,输入乘积项(X 平方或与其自身相乘)。X 平方项代表您的二次分量。X 和 X 平方的标准化回归权重 (beta) 可以让您了解线性和二次分量相对于彼此的“强度”,以及从步骤/块 1 到步骤/块 2 的 R 平方变化表示当您添加二次分量时模型与数据的拟合程度。

见章。8 在基思,TZ(2005 年)。多元回归及其他。艾琳和培根。978-0205326440

两个变量 x 和 y 之间的最佳线性度量是 Pearson 乘积矩相关系数。绝对值越接近 1,拟合越接近完美的直线。现在,如果您认为子区域中存在良好的线性度,请仅计算子区域中这些对的相关性。如果该区域之外的形状发生变化,则当包含所有数据时,它应该显示在相关性的下降中。

标准的统计工具是相关系数(参见 Michael Chernick 的回答),它是 [-1,1] 之间的值,并且与单位无关。与相关系数相关的是协方差。协方差受单位影响,但可能更容易解释。但是,在一般情况下,我不喜欢这些选项中的任何一个。我不喜欢它们,因为它们不是独立的保形转换。考虑到直线水平或垂直线被这两种措施都认为是非线性的。

更好的无单位选项是使用奇异值分解 (SVD)。SVD 将数据分解为按其对整体的贡献大小排列的组成部分。因此,最大奇异数与第二大奇异数的比率是线性度的度量。请注意,要使用此方法,您必须首先集中数据(使平均 X、Y、Z 等坐标为零)。

示例:积分:1126640.141 233575.2013;1126630.008 233572.8567;1126625.829 233572.7434;
1126625.416 233577.3781;

集中积分:9.792639127 0.656480018;-0.340591673 -1.68817349;-4.519928343 -1.801499913;-4.932119113 2.833193384;

SVD,D矩阵:11.86500017 0;0 3.813448344

奇异值之比 3.111357

上面的比率可以粗略地解释为数据在最佳拟合线方向上的长度是交叉线性方向的三倍。

对于具有单位且不需要 SVD 的单位的解决方案。做一些以线的中心作为参数之一的线拟合。使用上面的集中数据很简单:线 pt = 0 0(集中数据总是如此)线方向 = -0.999956849 -0.009289783

从线的中心到每个点的向量是这些点的中心坐标。求这些向量在直线上投影的长度(向量点直线方向的绝对值)和垂直向量分量的长度(向量交叉直线方向的长度)。长度平行,长度垂直9.798315123,0.565480194;0.356259742、1.684936621;4.536468847、1.759433021;4.905586534、2.878889448;

平行投影的最大值是沿线的数据延伸。垂直投影的最大长度是非线性的量度。两者的比率是上述奇异值比率的近似值。

注释 1. 线性的仿射不变性是不可能的。考虑一下,在仿射变换中,我们可以将除一个坐标轴之外的所有坐标轴缩放到接近零(使任何一组点成为线性)。所以共形不变性是我们能做到的最好的。2. 这些方法对异常数据不可靠。3. 示例是二维的,但可以推广到 N 维。