由于各种维度灾难,许多常见预测技术的准确性和速度在高维数据上都会下降。有哪些最有用的技术/技巧/启发式有助于有效处理高维数据?例如,
- 某些统计/建模方法在高维数据集上表现良好吗?
- 我们能否通过使用某些(定义距离的替代概念)或内核(定义点积的替代概念)来提高我们对高维数据的预测模型的性能?
- 什么是高维数据最有用的降维技术?
由于各种维度灾难,许多常见预测技术的准确性和速度在高维数据上都会下降。有哪些最有用的技术/技巧/启发式有助于有效处理高维数据?例如,
这是一个非常广泛的问题,我认为不可能在一个答案中全面涵盖。因此,我认为提供一些指向相关答案和/或资源的指针会更有益。通过提供以下信息和我的想法,这正是我要做的。
首先,我应该提到微软研究院的 Burges (2009)关于降维的优秀而全面的教程。他在整本专着中经常涉及数据的高维方面。这项工作将降维称为降维,提出了对该问题的理论介绍,提出了降维方法的分类,包括投影方法和流形建模方法,并概述了每个类别中的多种方法。
所回顾的“射影追踪”方法包括独立成分分析(ICA)、主成分分析(PCA)及其变体,如核PCA和概率PCA、典型相关分析(CCA)及其核CCA变体、线性判别分析(LDA ) ),内核降维(KDR)和其他一些。审查的流形方法包括多维缩放 (MDS)及其标志性 MDS变化、Isomap、局部线性嵌入和图形方法,例如拉普拉斯特征图和谱聚类。我在这里列出了大多数经过审查的方法,以防万一您无法访问原始出版物,无论是在线(上面的链接)还是离线(参考)。
我在上述工作中使用的“全面”一词有一个警告。虽然它确实相当全面,但这是相对的,因为专着中没有讨论一些降维方法,特别是那些专注于不可观察(潜在)变量的方法。但是,其中一些被提及,并参考了另一个来源——一本关于降维的书。
现在,我将通过参考我的相关或相关答案来简要介绍该主题的几个狭窄方面。关于高维数据的最近邻 (NN) 类型的方法,请在此处查看我的答案(我特别建议查看我列表中的论文 #4)。维度灾难的影响之一是高维数据经常是稀疏的。考虑到这一事实,我相信我在这里和这里关于稀疏和高维数据的回归和PCA的相关答案可能会有所帮助。
参考
Burges, CJC (2010)。降维:导览。Foundations and Trends® in Machine Learning, 2 (4), 275-365。doi:10.1561/2200000002
Aleksander 给出了一个非常全面的答案,但有一些被广泛起诉:
对于降维,使用 PCA。但是,这仅进行线性变换,对于非线性降维,流形学习是您正在寻找的。
可以使用内核将低维数据投影到高维。当您的分类器无法在当前维度中找到线性分离平面但能够找到在更高维度中分离类的线性超平面时,您通常会这样做。内核在 SVM 中被广泛使用。