sklearn 糖尿病数据集中的“性别”特征的值是如何获得的?

数据挖掘 Python scikit-学习 特征缩放
2022-03-13 23:41:27

我刚开始使用sklearn我自己的机器学习项目,我正在使用sklearn内置的“糖尿病”数据集

在对这些功能进行数据探索时,我注意到该功能让我有些困惑sex这是历史图:

在此处输入图像描述

现在我明白了两件事:

  1. 二进制直方图是有道理的,在这个数据集中有 2 个不同的男性和女性“性别”。
  2. 它们是数字的也很有意义,因为该数据集中的所有特征似乎都已经“标准化”了。

我不明白的是为什么价值观是这样的?(请参阅下面的值是什么)


>>> from sklearn import datasets
>>> diab_df = datasets.load_diabetes(as_frame=True)
>>> features = diab_df['data']
>>> features.sex.unique()

array([ 0.05068012, -0.04464164])

这些数字是如何得出的?起初,我认为这可能是某种分层抽样,如果真实的人口分布是 53% 的男性,47% 的女性,那么我可能希望看到这个历史数据中的值是 -0.47 和 0.53或者其他的东西?

1个回答

数据描述说:

注意:这 10 个特征变量中的每一个都以均值为中心并按标准差时间缩放n_samples(即每列的平方和总计 1)。 https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html

如需更多信息,请参阅:Bradley Efron、Trevor Hastie、Iain Johnstone 和 Robert Tibshirani (2004)“最小角度回归”,统计年鉴(有讨论),407-499。 http://web.stanford.edu/~hastie/Papers/LARS/LeastAngle_2002.pdf

from sklearn import datasets
print(datasets.load_diabetes())