主成分分析与特征选择

机器算法验证 机器学习 主成分分析 特征选择 威卡
2022-01-31 12:57:17

我正在使用 WEKA 做一个机器学习项目。这是一个有监督的分类,在我的基础实验中,我的准确率非常低。然后我打算做一个特征选择,但后来我听说了 PCA。

在特征选择中,我们所做的是考虑对我们的目标分类影响最大的属性子集。(如果我是正确的。)

在 PCA 中,据我所知,我们所做的是生成少量的人工属性集来解释我们的目标。(如果我错了,请纠正我)

但我不明白这两者之间的确切区别是什么。哪一个更好?这是否取决于某人正在进行的特定研究?

另外,以上两种方法的组合呢?(特征选择后的 PCA)。这有什么意义吗?

1个回答

特征选择

我们考虑对我们的目标分类影响最大的属性子集。

这种理解是完全正确的。

主成分分析

我们生成少量的人工属性集来解释我们的目标。

这是部分正确的。我们不是 PCA 中的会计目标。通俗地说,我们对数据及其分布进行了一些假设,并将具有较高维度的数据表示为具有大部分信息内容作为原始数据的较小维度(例如 3)。因此,PCA 是将您的属性转换为保留大部分信息的人工集。

比较

哪一个更好?这是否取决于某人正在进行的特定研究?

是的,这取决于具体的研究。如果 PCA 转换中的假设成立,那么通过进行 PCA,您将在少量属性中获得相同的信息。如果假设很大程度上失败了,那么进行 PCA 可能会破坏您的分类。

组合

这有什么意义吗?

这完全有道理。

通过特征选择,您可以通过丢弃不相关的信息来减少维数。通过 PCA,您可以通过转换为人工集来减少维数,但保留相同的信息。