偏见在数据科学中有多重含义吗?

数据挖掘 机器学习
2021-09-26 04:21:44
  • Bias的含义是什么?

  • 并且机器学习上下文中使用的Underfitting 是否与“Bias”相同?

我在统计抽样中遇到过有偏见的数据,但这似乎与学习概念中的偏见不同。

我听说有些数据集有偏差,也听说过模型(例如神经网络)有低偏差或“高偏差”问题。这些偏见的用途有什么不同吗?

2个回答

Bias 在统计中可能意味着不同的东西:

  • 如果您的模型有偏差,则很可能您的模型拟合不足。
  • 一些数据集在样本收集中存在偏差。例如,如果您假设您的样本响应是独立的,但不知何故它不是,这是您的数据集中的偏差。如果您想对全国的每个人进行抽样,但您无缘无故地跳过了一些城市,这会导致您的数据集出现偏差。
  • 您的估算器可能存在偏差 - 您的估算器的期望值不等于总体中的真实值。
  • “偏差”还用于描述使用传递函数时的可学习偏移参数,例如在神经网络中计算人工神经元的激活时。

偏差主要是由于空字段或 Nan 值可能导致多少错误,如果我们的训练数据没有太多有助于正确训练我们的模型的信息,通常会导致拟合不足。如果数据中的个人或群体没有在上面提到的样本中表示,则样本是有偏差的。这些都与统计有关。