进行特征选择和采样是否有特定的顺序?

数据挖掘 特征选择 降维 阶级失衡 采样
2021-09-22 07:37:31

我想对我的数据使用特征选择和观察二次抽样,原因如下:

  • 针对通常动机的特征选择(减少噪音、减少运行时间等)
  • 观察子采样,因为我的数据非常不平衡,并且我不想对下游分类器中最流行的类引入偏见

我的问题是:我应该按照特定的顺序进行特征和观察选择吗?例如,首先选择特征然后进行子采样?

2个回答

在我看来,正确的方法是首先随机选择观察值(例如,使用分层随机抽样来维持原始数据中的类平衡),然后进行任何模型构建(特征选择是模型构建)基于部分示例。

您应该使用尚未用于选择特征或训练模型的剩余观察值来评估模型的质量。

希望这可以帮助。

以下是我对这个问题的看法。

如果我首先选择我的特征,那么我需要一个足够大的子样本,这样模型的方差就不会产生反作用。这提出了几个重要的问题。

  1. 我能否获得足够大的子样本来满足我的无偏标准?
  2. 我能得到一个足够小的子样本来满足我的效率限制吗?

如果我首先选择我的子样本,那么我需要对这个子样本有用的特征,我最终需要覆盖整个特征空间。这提出了几个问题。

  1. 我可以为我的子样本大小获得适当大小的特征空间吗?至少我想要一个在某个特定区域是专家的特征空间,目的是用后续的子样本和特征选择来覆盖整个特征空间。
  2. 在保持效率限制的情况下,我可以处理多少个子样本?

我会根据上面积极回答的问题来选择我的方法。