数据集“有偏见”是什么意思?

机器算法验证 机器学习 偏见
2022-03-28 00:24:49

当机器学习领域的人们谈论有偏见的数据集时,这意味着什么?我认为只有估算器才会有偏差。

在记录我所做的工作时,有人问我:

“所有数据集都以某种方式存在偏差。您的数据集如何存在偏差?”

我不知道它们是什么意思。我的数据集也是人口数据,所以我很难将其解释为样本选择问题......

分析的目的主要是描述性的。我将构建三个索引并将它们组合起来。这三个指数是1)房价指数,2)交通时间指数和3)工资指数。

我知道,即使有人口数据,房价也存在样本选择问题——因为并非所有房屋每年都会交易,而且交易的子样本很可能不是住房总存量的随机样本。

我并没有在我拥有数据的时间段(即 30 年)之外进行概括。

3个回答

“有偏见”一词表示您的样本不是随机选择的。

这类似于有偏骰子,它产生数字 6 的频率高于其他数字。

如何获得无偏的样本总是很困难,但一些众所周知的错误是:

  • 不回应偏见(有些人回应,有些人不回应),
  • 自愿反应偏差(问题会吸引非常固执的人),
  • 志愿者偏见(志愿者不代表整个人群),
  • 幸存者偏差(专注于特定过程的“幸存者”)
  • 可用性偏差(选择容易获得的人/事)

从作为一名统计学家(我的主要角色是顾问)到同样为我们工作的主题专家,我注意到,对统计数据了解较少的人在只想说有问题时会抛出偏见这个词。

当他们说某事有偏见时,他们真的不知道自己在说什么,并且会在他们担心的任何时候说出来,作为一种包罗万象,即使上下文与偏见无关。很多时候,当我向某人解释某事时,他们会回答“偏见呢”,即使这与手头的谈话无关。

我怀疑您的情况可能就是这种情况,特别是当您看到他们说以下内容时:

“所有数据集都以某种方式存在偏差。您的数据集如何存在偏差?”

这当然不是真的。

请注意,当我们开始谈论像机器学习这样的流行词时,这种情况会成倍增加。我有人给我一个数据集并问我“你能机器学习这个......”。

也许您知道,当 iPhone 用户互相发短信时,会出现一个蓝色的“发送”箭头,而不是给使用其他类型手机的人发短信时看到的绿色箭头。要收集数据,您可以随机输入数字,但前提是箭头是蓝色的。您的样本存在偏见,因为您排除了出于任何原因不使用 iPhone 的人。也许政治观点会影响手机购买决定。如果你在发短信讨论政治问题,你就排除了某些观点。