有监督的降维

机器算法验证 机器学习 主成分分析 降维 监督学习 判别分析
2022-01-30 20:19:14

我有一个由 15K 标记样本(10 组)组成的数据集。我想将降维应用到二维中,这将考虑到标签的知识。

当我使用诸如 PCA 之类的“标准”无监督降维技术时,散点图似乎与已知标签无关。

我要找的东西有名字吗?我想阅读一些解决方案的参考资料。

1个回答

监督降维的最标准线性方法称为线性判别分析(LDA)。它旨在找到最大化类分离的低维投影。您可以在我们的网站下找到很多关于它的信息标签,以及任何机器学习教科书,例如免费提供的 The Elements of Statistical Learning

这是我在这里通过快速谷歌搜索找到的图片;当数据集中有两个类(由我添加的原点)时,它显示一维 PCA 和 LDA 投影:

PCA 与 LDA

另一种方法称为偏最小二乘法(PLS)。LDA 可以解释为寻找与编码组标签的虚拟变量具有最高相关性的投影(从这个意义上说,LDA 可以看作是典型相关分析的特例,CCA)。相反,PLS 寻找与组标签具有最高协方差的投影。而 LDA 仅在两组的情况下产生 1 个轴(如上图所示),PLS 将找到许多按协方差递减排序的轴。请注意,当数据集中存在两个以上的组时,PLS 的不同“风味”会产生不同的结果。

更新(2018 年)

我应该找时间来扩展这个答案;这个线程似乎很受欢迎,但我上面的原始答案很短而且不够详细。

同时,我将提到邻域成分分析——一种找到投影最大化的线性方法k-最近邻分类精度。使用神经网络进行非线性泛化,请参阅Learning a Nonlinear Embedding by Preserving Class Neighborhood Structure也可以使用具有瓶颈的神经网络分类器,请参阅监督降维中的深度瓶颈分类器。