使用众所周知的“泰坦尼克号上乘客的生存情况”数据集,我通过绘制票价与年龄的关系得到了一个奇怪的行为(见下文)。如果没有对 Pclass 的约束,则相关性是正的。相反,对于所有 Pclasses,相关性似乎是负的。
我认为这是“辛普森悖论”的一种形式。但我不确定。对于这种特殊情况,如何最好地解释这种行为?
# df is a pandas dataframe with the titanic data set
# see https://www.kaggle.com/c/titanic
import seaborn as sns
sns.jointplot("Age", "Fare", df, kind='reg')
sns.lmplot("Age", "Fare", df, col="Pclass")