为什么降维和/或特征选择技术被认为并不总是有效的?

数据挖掘 机器学习
2022-02-14 08:04:52

您能否解释一下何时(在什么情况下)降维和/或特征选择技术无法有效减轻维度灾难?

2个回答

当数据无法理解并且您没有任何数据字典或者您有太多列即使经过调查也没有任何意义时,这很有帮助,那么选择Dimensionality Reduction是明智的。

您很有可能会在粒度级别上丢失信息,例如,您提供了 100 列,而您有 10 台 PC(应用 PCA)可以解释大部分数据。因为您只能从该技术中获得那么多。

特征选择:如果您甚至错过了一个重要的 WRT 目标变量的特征,但您忽略了该特征,那么您的模型可能无法解释最多,您甚至对结果感到满意,但仍有改进的窗口。您应该非常小心,并且需要尽可能多地检查(多次迭代)以构建良好/体面的模型并从中获得最佳结果。

我希望这可以帮助你。

两种方法都是“有损的”。

对于 PCA,假设您保留的组件少于变量,您必然会丢弃信息。如果您没有几个组件可以捕获大部分差异,那么您可能会丢弃很多。

对于特征选择,(我假设您的意思是像套索这样的自动化方法),您再次丢弃信息,希望只是增量信息。但是,根据您构建选择例程的方式,您可以让算法做出一定程度的设计决策,从而减少数据。

这是否不好取决于意图。火灾纯分类不是问题。对于可解释性,它可能是必不可少的。