学习微软的DP-100,看到了这个笔记本:
我有疑问的部分代码是
# Define preprocessing for categorical features (encode the Age column)
categorical_features = [7]
categorical_transformer = Pipeline(steps=[
('onehot', OneHotEncoder(handle_unknown='ignore'))])
这是整个笔记本的链接,供您查看完整图片。我无法在此处复制完整的代码页。
我的问题是:为什么DiabetesPedigree列(第 7 列)被视为分类特征?
对我来说,它看起来与其他栏目(糖尿病栏除外)没有什么不同。
如果 DiabetesPedigree 可以被视为分类,为什么不怀孕?
判断一列数据是数字还是分类数据的规则是什么?
