数据挖掘 - 为什么数字列在 Microsoft Learning 中被视为分类列？ - 吾爱随笔录

学习微软的DP-100，看到了这个笔记本：

我有疑问的部分代码是

# Define preprocessing for categorical features (encode the Age column)
categorical_features = [7]
categorical_transformer = Pipeline(steps=[
    ('onehot', OneHotEncoder(handle_unknown='ignore'))])

这是整个笔记本的链接，供您查看完整图片。我无法在此处复制完整的代码页。

以下是数据的样子：

我的问题是：为什么DiabetesPedigree列（第 7 列）被视为分类特征？

对我来说，它看起来与其他栏目（糖尿病栏除外）没有什么不同。

如果 DiabetesPedigree 可以被视为分类，为什么不怀孕？

判断一列数据是数字还是分类数据的规则是什么？

# Separate features and labels features = ['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness','SerumInsulin','BMI','DiabetesPedigree','Age'] label = 'Diabetic' X, y = diabetes[features].values, diabetes[label].values