如何进行特征分析:pandas groupby()。意思是

数据挖掘 数据集 熊猫 卡格尔
2022-03-14 01:43:25

我正在用一本指导书分析来自 Kaggle 1的泰坦尼克号数据。在本书中,关于 Pclass 数据和 Survived 数据之间关系的特征分析如下所示。

train_set = pd.read_csv('train_csv) fig = plt.figure(figsize=(12,4)) ax1 = fig.add_subplot(121) PclassPlot = train_set['Survived].groupby(train_set['Pclass]).mean() ax.bar(x=PClassPlot.index, height=PClassPlot.values)
为什么需要使用平均数据? 我认为我不需要计算平均值来查看 Pclass 和 Survived 数据之间的关系。

请给我一些分析数据的技巧。感谢您的帮助。

1个回答

计算均值只是为了了解这种关系。为了更明确的分析,可以使用简单的统计数据来了解两个变量之间的关系。要应用的测试取决于变量的类型:

If both are numeric: Correlation (Pearson or Spearman)

If both are grouping (nominal) variables: Chi-square test
   Fisher exact test can also be used if only 2 groups in each variable.

If one is grouping and other numeric: 
   if only 2 groups: Student t-test or Mann-Whitney U test
   if more than 2 groups: ANOVA or Kruskal–Wallis test

不同组的手段只会为您提供有关关系的部分信息。但是,知道该特征是否可能对预测很重要就足够了。作为特征选择的一种方法,如果组的平均值没有显着差异,则该特征可能会从分析中删除。