如何为我的模型获得大于 0.5 的平均值?

数据挖掘 分类 逻辑回归 分类数据 分类编码
2022-02-14 21:28:30

我正在尝试建立一个分类模型。称为专业的变量之一有 200 个值。根据我之前看到的一篇文章,我决定要包含均值最高的值。我认为大于 0.5。我将如何过滤专业,使其平均值仅大于 0.5?我正在尝试让我的最终数据集为机器学习做好准备。任何建议表示赞赏。

在此处输入图像描述

1个回答

因此,如果我理解正确,您想要“单热编码”或虚拟编码您的变量“专业”,以便它从区间缩放变量变为二进制变量,其中 1 == >.5 和 0 == < =.5 对吗?

因此,就像您在 python 中一样,以下代码将创建一个执行您想要的新变量:

import pandas as pd
import numpy as np

df2['specialty_binned'] = np.digitize(df2['specialty'],bins=[0.5], right = True)

这将在您的数据框中创建一个名为“specialty_binned”的新变量,该变量只有 1 和 0,其中 1 是旧变量中高于 0.5 的值。