分层抽样变量选择

数据挖掘 大数据 采样 分配
2022-02-21 04:55:56

我正在尝试在 R 中进行分层抽样以从我的数据中进行抽样,其中一个参数是组,它采用变量名称进行抽样,以保持数据集的相同初始分布。

是否将响应作为分组变量包含在内是否很常见,包含/排除它的含义是什么?

1个回答

是的,使用目标变量进行分层抽样是很常见的,有时甚至是必要的。

考虑欺诈检测的案例,给定一个人的一系列特征(例如收入、性别、职位等),我们想要预测该人犯罪的可能性(一个布尔值,表示该人是否是嫌疑人)。这个数据集很可能是非常不对称的,很少有正面的例子。

现在,如果我们想使用 k 折交叉验证,我们必须使用目标变量对样本进行分层。如果我们不这样做,我们最终可能会得到一个没有任何正面示例的折叠,并且无法从该折叠计算任何指标。