我想对我的数据使用特征选择和观察二次抽样,原因如下:
- 针对通常动机的特征选择(减少噪音、减少运行时间等)
- 观察子采样,因为我的数据非常不平衡,并且我不想对下游分类器中最流行的类引入偏见
我的问题是:我应该按照特定的顺序进行特征和观察选择吗?例如,首先选择特征然后进行子采样?
我想对我的数据使用特征选择和观察二次抽样,原因如下:
我的问题是:我应该按照特定的顺序进行特征和观察选择吗?例如,首先选择特征然后进行子采样?
在我看来,正确的方法是首先随机选择观察值(例如,使用分层随机抽样来维持原始数据中的类平衡),然后进行任何模型构建(特征选择是模型构建)基于部分示例。
您应该使用尚未用于选择特征或训练模型的剩余观察值来评估模型的质量。
希望这可以帮助。
以下是我对这个问题的看法。
如果我首先选择我的特征,那么我需要一个足够大的子样本,这样模型的方差就不会产生反作用。这提出了几个重要的问题。
如果我首先选择我的子样本,那么我需要对这个子样本有用的特征,我最终需要覆盖整个特征空间。这提出了几个问题。
我会根据上面积极回答的问题来选择我的方法。