数据挖掘 - 如何进行特征分析：pandas groupby()。意思是 - 吾爱随笔录

如何进行特征分析：pandas groupby()。意思是

数据挖掘数据集熊猫卡格尔

2022-03-14 01:43:25

我正在用一本指导书分析来自 Kaggle 1的泰坦尼克号数据。在本书中，关于 Pclass 数据和 Survived 数据之间关系的特征分析如下所示。

train_set = pd.read_csv('train_csv) fig = plt.figure(figsize=(12,4)) ax1 = fig.add_subplot(121) PclassPlot = train_set['Survived].groupby(train_set['Pclass]).mean() ax.bar(x=PClassPlot.index, height=PClassPlot.values)
为什么需要使用平均数据？ 我认为我不需要计算平均值来查看 Pclass 和 Survived 数据之间的关系。

请给我一些分析数据的技巧。感谢您的帮助。

1个回答

计算均值只是为了了解这种关系。为了更明确的分析，可以使用简单的统计数据来了解两个变量之间的关系。要应用的测试取决于变量的类型：

If both are numeric: Correlation (Pearson or Spearman)

If both are grouping (nominal) variables: Chi-square test
   Fisher exact test can also be used if only 2 groups in each variable.

If one is grouping and other numeric: 
   if only 2 groups: Student t-test or Mann-Whitney U test
   if more than 2 groups: ANOVA or Kruskal–Wallis test

不同组的手段只会为您提供有关关系的部分信息。但是，知道该特征是否可能对预测很重要就足够了。作为特征选择的一种方法，如果组的平均值没有显着差异，则该特征可能会从分析中删除。

其它你可能感兴趣的问题

上一篇> 29次观察后的张量流简单回归nan 下一篇使用历史趋势和特征预测保单的损失金额？