我刚开始使用sklearn
我自己的机器学习项目,我正在使用sklearn
内置的“糖尿病”数据集。
在对这些功能进行数据探索时,我注意到该功能让我有些困惑sex
。这是历史图:
现在我明白了两件事:
- 二进制直方图是有道理的,在这个数据集中有 2 个不同的男性和女性“性别”。
- 它们是数字的也很有意义,因为该数据集中的所有特征似乎都已经“标准化”了。
我不明白的是为什么价值观是这样的?(请参阅下面的值是什么)
>>> from sklearn import datasets
>>> diab_df = datasets.load_diabetes(as_frame=True)
>>> features = diab_df['data']
>>> features.sex.unique()
array([ 0.05068012, -0.04464164])
这些数字是如何得出的?起初,我认为这可能是某种分层抽样,如果真实的人口分布是 53% 的男性,47% 的女性,那么我可能希望看到这个历史数据中的值是 -0.47 和 0.53或者其他的东西?