这是泰坦尼克号数据集上的辛普森悖论吗?

机器算法验证 辛普森悖论
2022-03-11 19:49:03

使用众所周知的“泰坦尼克号上乘客的生存情况”数据集,我通过绘制票价与年龄的关系得到了一个奇怪的行为(见下文)。如果没有对 Pclass 的约束,则相关性是正的。相反,对于所有 Pclasses,相关性似乎是负的。

我认为这是“辛普森悖论”的一种形式。但我不确定。对于这种特殊情况,如何最好地解释这种行为?

# df is a pandas dataframe with the titanic data set
# see https://www.kaggle.com/c/titanic

import seaborn as sns
sns.jointplot("Age", "Fare", df, kind='reg')

所有乘客舱位的票价与年龄

sns.lmplot("Age", "Fare", df, col="Pclass")

在此处输入图像描述

1个回答

尽管辛普森悖论(或辛普森逆转)在三向列联表中比在连续变量之间的相关性中更常被提及,但这是相同的现象。

在这里,简单的解释似乎很清楚:虽然每个舱位内部都有轻微的票价随着年龄的增长而下降的趋势,但较低级别的人往往更年轻。也就是说,年轻人倾向于乘坐较低级别的旅行,因此年轻人倾向于支付较低的票价。

关于低年级的人更年轻的事实,你可以在情节中看到,三班的孩子(年龄<18岁)很多,二班的人少(显然0-20岁的人比二班少) 20-40),而一等班的孩子很少。将 40-60 和 60-80 年龄段与 20-40 年龄段进行比较也可以看出,下层阶级的人往往更年轻。

总结:是的,这是辛普森悖论的一个事件。年轻人倾向于乘坐较低等级的旅行,因此年轻人倾向于支付较低的票价,即使他们倾向于支付比同等级的老年人多一点的费用。

并且只是一个旁注:这不是泰坦尼克号数据集中唯一出现的辛普森悖论。https://select-statistics.co.uk/blog/hidden-data-and-surviving-a-sinking-ship-simpsons-paradox/https://www2.stat.duke.edu/courses/Fall12/ sta611/SimpsonsParadox.pdf注意到另一个。