我刚开始我的第一个机器学习项目(Jupyter Notebook、Python、Scikit-learn、pandas),并且正在研究 Palmer Penguin 数据集。我一直在做一些数据分析,但在尝试关联和组合数据集中的一些属性时遇到了困难。
- 相关性。
该数据集包含 2 个分类(性别、岛屿)和 4 个数值(体重、鳍状肢长度、顶梁深度、顶梁宽度)特征以及一个标签(企鹅物种)。我首先尝试将特征与标签相关联——我使用 scikit-learn 中的 LabelEncoder 将物种标签转换为数值属性,因为 pandas 数据框的相关函数仅适用于数值属性。尽管我得到了一些结果,但我从许多来源中了解到,这是一种测量分类属性和数值属性之间相关性的不恰当方法。如果有人可以为我澄清,我将不胜感激,什么是衡量这些类型相关性的首选方法。
- 结合。
我想测量这些属性之间的相关性的原因之一是,如果有意义的话,可能用组合属性替换一些属性。在逻辑上有意义的组合之一是将性别与体重相结合 - 我认为单独的性别不会带来太多价值,但如果我们将它与体重相结合可能会更有价值。这样的组合是否有意义,它们能否提高分类模型的准确性?如果是,如何使用指定的工具将分类属性与数字属性相结合?