数据挖掘 - 进行特征选择和采样是否有特定的顺序？ - 吾爱随笔录

数据挖掘特征选择降维阶级失衡采样

2021-09-22 07:37:31

我想对我的数据使用特征选择和观察二次抽样，原因如下：

我的问题是：我应该按照特定的顺序进行特征和观察选择吗？例如，首先选择特征然后进行子采样？

2个回答

在我看来，正确的方法是首先随机选择观察值（例如，使用分层随机抽样来维持原始数据中的类平衡），然后进行任何模型构建（特征选择是模型构建）基于部分示例。

您应该使用尚未用于选择特征或训练模型的剩余观察值来评估模型的质量。

希望这可以帮助。

以下是我对这个问题的看法。

如果我首先选择我的特征，那么我需要一个足够大的子样本，这样模型的方差就不会产生反作用。这提出了几个重要的问题。

如果我首先选择我的子样本，那么我需要对这个子样本有用的特征，我最终需要覆盖整个特征空间。这提出了几个问题。

我会根据上面积极回答的问题来选择我的方法。

其它你可能感兴趣的问题