如何知道“最佳拟合线”是否真的代表已知数据集?

机器算法验证 回归 线性模型 最小二乘 拟合优度
2022-03-19 06:11:50

我有一组已知的数据。我为那组数据创建了一条“线性最佳拟合线”。有没有办法确定我的数据集与最佳拟合线的拟合程度(某种分数)?

我在统计方面非常新手,但基本上我想知道我的行是否代表我知道的那些数据点。

2个回答

我想知道我的线是否代表那些数据点

这种想法的问题在于,拟合模型可能无法代表数据的方式有很多。因此,单一的衡量标准并不能真正捕捉到模型无法具有代表性的方式。

这就是为什么回归诊断不是由一个数字组成,而是由多个显示组成——其中一些可能会揭示模型的几个不同问题中的任何一个。

带您询问简单回归(single-x),这里有几个您可能认为“不具有代表性”的示例:

  1. 您尝试使用建模的潜在关系可能是非线性的。某种形式的失拟测量有时会很有用——如果你有重复,这很容易,但如果没有,加上一些额外的假设(例如局部平滑度,如果它不是线性的)可以让我们得到一些测量(lowess,例如,或者某种形式的回归样条可用于获取此类变化,并且不具代表性的度量将与此类非线性模型给出的改进有关)。然而,更常见的方法是检查残差(同样,可能经常使用像 lowess 这样的工具)。E(y|x)=β0+β1x

  2. 平均值的模型可能是正确的,但平均值本身可能无法代表数据(因为大部分数据的行为不像平均值 - 即平均值可能不是条件分布的有用描述符):E(y|x)=β0+β1x

    在此处输入图像描述

    这里有一个复杂的情况——

    • 对于小之间的关系(例如,在数据的左端附近,均值、中位数和众数在中都是线性的),但是xyxx

    • 对于大,关于线的分布是强双峰的,因此,表示的线- 虽然正确描述了条件均值 - 并不代表数据;实际上,在该区域中,两种模式与平均值的关系都是非线性的,即使平均值始终是线性的。xE(y|x)

除了您可能要考虑的均值形式之外,还有其他问题。例如,如果方差远非恒定,则通常的回归线可能无法有效估计,并且通常的推断将无法按预期工作。此外,如果目标是描述相关的方式,则描述散布可能与描述均值一样重要。yx

--

可以构建代表性的各个方面的度量,但由于“代表性”是多方面的,单一的度量不会有意义地捕捉所有这些方面。事实上,正如我们在示例中看到的,一条线的代表性在数据的不同部分可能会有所不同。一个单一的数字会掩盖这些微妙之处。

[当然,在特定情况下,您可以忽略/忽略许多可能使线条不具代表性的方式,因此说“我最感兴趣的是一个特定方面”——例如非线性——然后设计某种程度的。在您可以做到这一点的情况下,这可能会很好,尤其是在需要自动化的情况下。]

有几种方法可以做到这一点。首先回想一下,线性最佳拟合线是最小化残差平方和的线(参见最小二乘法):

i=1nri2
在哪里ri是数据点的残差i, 和n是数据点的数量。残差是数据中的点与线上的点之间的距离

考虑到这一点,这里有一些关于如何“评分”你的线与数据的匹配程度的想法:

  • 计算数据与线之间的最大绝对距离。这将告诉您是否有任何距离很远的数据点。

    maxi|r1|

  • 计算数据与直线之间的平均距离(残差的L1 范数的平均值,也称为 S)。这将告诉您大多数数据点的距离。

    i=1n|ri|n

  • 计算决定系数 其中代表每个数据点的值,是数据的平均值。R2

    R2=1i=1nri2i=1n(yiy¯)2
    yiy¯

鉴于您的评论是您的目标是确定数据集是否是线性的,请考虑以下问题:

大约 95% 的观测值应落在回归线回归的±

(请参阅“如何解释 S,回归的标准误差”

因此,如果 95% 的数据点范围内,那么您可以确信您的数据是线性的(其中是我所说的平均距离)。2SS

更多信息:线性回归还是非线性回归?

此外,您还提到尽可能准确地预测未来值,在这种情况下,您可以将数据分成两部分:训练集和测试集。然后:

  1. 仅将一条线拟合到训练集(省略测试集)
  2. 评估这条线是否准确地预测了测试集。(即您正在测试模型)

如果您可以准确地预测测试集,那么您已经成功地对数据进行了建模,在本例中是使用线性函数。这是机器学习的基础,这是一个很大的话题,所以我不会在这里展开更多。