我听说统计文献中经常提到“偏见”这个词。
例如,
通过使用均值插补,我们为我们的估计增加了偏差。
另一个例子,
选择模型时,偏差-方差权衡是一个重要的主题。
这些是相同的“偏见”吗?
我听说统计文献中经常提到“偏见”这个词。
例如,
通过使用均值插补,我们为我们的估计增加了偏差。
另一个例子,
选择模型时,偏差-方差权衡是一个重要的主题。
这些是相同的“偏见”吗?
术语“偏差”在统计文献中有一个特定的定义(估计量的期望值与被估计的事物之间的差异),但这并不是说它失去了原来的、更普遍的含义。打算使用哪一个将取决于上下文,并且通常您会混合使用两者。
我会说第一种用法通常是不太精确的那种,因为数据插补是一种用于应用问题的方法,其中不需要假设参数的任何真实值甚至存在。在这里,它基本上是“缩小到零”的同义词。
就第二种用法而言,术语偏差 - 方差权衡最初源于偏差的更正式定义,但我仍然会说这更多地指的是模型拟合过程的一般“不灵活性”,而不是必然是一个估计的回归函数平均是否正确的问题。
我同意这个术语令人困惑。偏见在这两种情况下都有一个含义:与理想值或目标值的距离,但解释取决于我们所谈论的空间。我将解释我对您问题中的两个引号的含义。
通过使用均值插补,我们为我们的估计增加了偏差。
这是指数据空间中的偏差。均值插补会影响您的估计相对于目标值的位置。
选择模型时,偏差-方差权衡是一个重要的主题。
这是指模型参数空间中的偏差和方差。也就是说,如果你训练一个随机模型 1000 次,你可以观察到参数值的偏差或方差。高偏差模型具有一致的参数,但它们不同于“最佳”解决方案。每次训练时,高方差模型都会获得不同的参数值。