为什么数字列在 Microsoft Learning 中被视为分类列?

数据挖掘 分类 scikit-学习
2022-02-20 04:00:41

学习微软的DP-100,看到了这个笔记本

我有疑问的部分代码是

# Define preprocessing for categorical features (encode the Age column)
categorical_features = [7]
categorical_transformer = Pipeline(steps=[
    ('onehot', OneHotEncoder(handle_unknown='ignore'))])

这是整个笔记本的链接,供您查看完整图片。我无法在此处复制完整的代码页。

以下是数据的样子: 在此处输入图像描述

我的问题是:为什么DiabetesPedigree列(第 7 列)被视为分类特征?

对我来说,它看起来与其他栏目(糖尿病栏除外)没有什么不同。

如果 DiabetesPedigree 可以被视为分类,为什么不怀孕?

判断一列数据是数字还是分类数据的规则是什么?

1个回答

看看那个笔记本上的评论:

# Define preprocessing for categorical features (encode the Age column)

您拥有的数据似乎与笔记本中使用的数据不同(可能只是按顺序),因为该Age列是笔记本中的第八列(索引七)。另请参阅从输入文件中选择数据的单元格:

# Separate features and labels
features = ['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness','SerumInsulin','BMI','DiabetesPedigree','Age']
label = 'Diabetic'
X, y = diabetes[features].values, diabetes[label].values