在线性回归中获得斜率分布背后的直觉是什么?
考虑一个总体与从该总体中抽取的样本之间的差异。
您是正确的,标准线性回归为给定数据提供了唯一的最佳拟合线:对于来自一组案例的这个样本。
然而,我们通常对总体特征感兴趣,而不仅仅是样本。报告的系数值分布表示这些值可能如何随着来自同一总体的重复抽样而变化。
而且,是的,残差与估计系数分布的一种方法有很大关系,正如这里所解释的,基于某些标准假设。重采样提供了另一种在不做这些假设的情况下估计分布的方法。
真实参数/回归系数
线性回归假设模型:
在哪里假设是固定的,只有残差项假设按照某种分布进行分布。
因此,假设真实参数/系数是固定的,并且不假设与分布相关(即在线性回归中,可以考虑表达系数分布的替代模型)
估计的参数/回归系数
虽然真实可能是固定的,估计可能被认为遵循某种分布(估计取决于每个新实验都会变化的样本/数据,因此估计可以被认为是随机变量)。这导致了两种不同的方式来表达参数的估计,点估计和区间估计,在这种差异中,您可能会发现将额外估计报告为标准误差、t 值、置信区间的直觉:
来自https://en.wikipedia.org/wiki/Point_estimation
在统计学中,点估计涉及使用样本数据来计算单个值(称为点估计或统计量),作为未知总体参数的“最佳猜测”或“最佳估计”(例如,人口平均值)。更正式地说,它是将点估计器应用于数据以获得点估计。
来自https://en.wikipedia.org/wiki/Interval_estimation
在统计学中,区间估计是使用样本数据来计算未知总体参数的合理值的区间;这与点估计相反,点估计只给出一个值。Jerzy Neyman (1937) 将区间估计(“区间估计”)与点估计(“唯一估计估计”)区别开来。在这样做的过程中,他认识到当时最近的工作引用结果以估计加或减标准差的形式表明区间估计实际上是统计学家真正想到的问题。
区间估计可以更好地了解数据携带的信息。它不仅是对单个总体参数的估计,而且还传达了诸如数据所携带信息的强度之类的信息,即除此单个估计之外的其他值有多远,, 仍然是未知参数的合理替代方案.
更多数据或噪声更少的数据会导致估计的偏差更小(并且这种偏差可以从数据中估计出来),这意味着并不是每个点估计都可以被认为是相同的。随着更多数据或更小的噪声水平,估计更可能“接近”真正的未知参数。仅单点估计并不能传达这种偏差以及点估计可能有多“接近”。