我正在尝试建立一个分类模型。称为专业的变量之一有 200 个值。根据我之前看到的一篇文章,我决定要包含均值最高的值。我认为大于 0.5。我将如何过滤专业,使其平均值仅大于 0.5?我正在尝试让我的最终数据集为机器学习做好准备。任何建议表示赞赏。
如何为我的模型获得大于 0.5 的平均值?
数据挖掘
分类
逻辑回归
分类数据
分类编码
2022-02-14 21:28:30
1个回答
因此,如果我理解正确,您想要“单热编码”或虚拟编码您的变量“专业”,以便它从区间缩放变量变为二进制变量,其中 1 == >.5 和 0 == < =.5 对吗?
因此,就像您在 python 中一样,以下代码将创建一个执行您想要的新变量:
import pandas as pd
import numpy as np
df2['specialty_binned'] = np.digitize(df2['specialty'],bins=[0.5], right = True)
这将在您的数据框中创建一个名为“specialty_binned”的新变量,该变量只有 1 和 0,其中 1 是旧变量中高于 0.5 的值。
其它你可能感兴趣的问题