人类在收集或解释数据时最常见的偏见是什么?

机器算法验证 偏见
2022-02-11 16:16:24

我是经济/统计专业的。我知道经济学家试图通过识别人们不理性行为的情况来修改他们对人类行为和理性的假设。例如,假设我为您提供 100% 的损失 1000美元的机会或 50% 的损失 2500美元的机会,人们选择2500美元的选项,即使后者的预期价值比1000美元的保证损失更大损失。这被称为“损失厌恶”。行为经济学家现在研究这些模式,并试图找出人类偏离那些通常被认为构成“理性”行为的公理的方式。在这里,我认为选择预期损失最小的做法是合理的。

我想知道统计学家是否已经确定了数据收集中的常见模式,这些模式会在人们如何解释数据时产生有偏见的结果。如果本质上存在一种“理性”的数据收集方式,我认为存在人类偏离这一点并表现出“偏见”的例子。如果是这样,人类在收集或解释数据时最常见的偏见是什么?

4个回答

我认为在学术界,p 值很容易被误解。人们往往会忘记 p 值表示条件概率。即使已经完美地进行了实验并且满足了所选统计测试的所有要求,错误发现率通常也远高于显着性水平 alpha。错误发现率随着统计能力和真阳性率的降低而增加(Colquhoun,2014;Nuzzo,2014)。

此外,人们倾向于认为他们的估计是真实的,而他们估计的参数是随机的(Haller & Kraus,2002)。例如,当他们说“在 95% 的情况下,这个确定的置信区间涵盖了参数”......

混淆相关性和因果关系可能也是数据解释中非常常见的错误。

在数据收集方面,我认为一个常见的错误是取最容易获得的样本,而不是最具代表性的样本。

Colquhoun, D. (2014)。对错误发现率和对 P 值的误解的调查。皇家学会开放科学,1-15。

努佐,R. (2014)。统计错误:P 值,统计有效性的“黄金标准”并不像许多科学家所假设的那样可靠。自然,506、150-152。

Haller, H. & Kraus, S. (2002):对意义的误解:学生与老师分享的问题?在线心理研究方法,Vol.7,No.1

我想说的是普遍无法理解真正的随机性是什么样的。人们似乎期望的虚假模式比随机事件序列中实际发生的少。当我们尝试自己模拟随机性时,也会出现这种情况。

另一个相当普遍的问题是不理解独立性,就像赌徒的谬误一样。我们有时认为,即使显然不可能,先前的事件也会影响未来的事件,例如之前的一副洗牌后的牌会影响未来的牌。

已经指出,许多被(行为)经济学家标记为“非理性”或“有偏见”的行为和思维过程实际上在现实世界中具有高度的适应性和效率。尽管如此,OP的问题很有趣。然而,我认为,参考关于我们认知过程的更基本的、描述性的知识可能是有益的,而不是去寻找与经济文献中讨论的那些相对应的特定“偏见”(例如,损失厌恶、禀赋效应、基本忽略等)。

例如,可评估性肯定是数据分析中的一个问题。可评估性理论指出,我们超重了我们发现易于解释或评估的信息。考虑回归系数的情况。评估系数的“现实世界”后果可能是一项艰巨的工作。我们需要考虑自变量和因变量的单位以及自变量和因变量的分布,以了解系数是否具有实际相关性。另一方面,评估系数的重要性很容易:我只是将其 p 值与我的 alpha 水平进行比较。鉴于 p 值与系数本身相比具有更大的可评估性,因此 p 值如此之多也就不足为奇了。

(标准化提高了系数的可评估性,但可能会增加模糊性:相关信息不可用或被隐瞒的感觉,因为我们无法获得我们正在处理的数据的“原始”形式。)

一个相关的认知“偏见”是具体性原则,即倾向于在决策上下文中过度重视“就在那儿”的信息,并且不需要从记忆中检索。(具体性原则还指出,我们可能会使用给定格式的信息,并倾向于避免执行转换。)解释 p 值可以仅通过查看回归输出来完成;它不需要我检索有关我正在建模的事物的任何实质性知识。

我希望统计数据解释中的许多偏见可以追溯到一般理解,即我们在解决问题或形成判断时可能会采取简单的路线(参见“认知吝啬鬼”、“有限理性”等) . 相关地,“轻松”做某事通常会增加我们持有由此产生的信念的信心(流利度理论)。(人们也可以考虑更容易表达的数据的可能性- 对我们自己或其他人 - 在我们的分析中被过度加权。)我认为当我们考虑可能的例外情况时,这变得特别有趣。例如,一些心理学研究表明,如果我们认为一个问题应该难以解决,那么我们可能会偏爱不太具体和更困难的方法和解决方案,例如,选择一种更神秘的方法而不是简单的方法。

我能想到的最大的单一因素被广泛称为“确认偏差”。在确定了我认为我的研究将显示的内容后,我不加批判地接受导致该结论的数据,同时为所有似乎反驳它的数据点找借口。我可能会无意识地拒绝任何不符合我结论的数据点为“明显的仪器错误”(或类似的)。在某些情况下,它不会那么明显。我不会完全丢弃这些数据点,而是编造一些公式来消除“错误”,这将方便地引导结果确认我的预定结论。

这没有什么特别邪恶的。这就是我们大脑的工作方式。过滤掉这种偏见需要付出很大的努力,这也是科学家们喜欢编造双盲研究的原因之一,以至于进行测量的人不知道实验要证明什么。然后需要极大的纪律才能不调整他忠实测量的内容。