我发现许多算法用于降维。更常用的(例如在此页面上)是:
Principal component analysis (PCA).
Factor Analysis
Independent component analysis (ICA).
Non-negative matrix factorization (NMF or NNMF)
Latent Dirichlet Allocation (LDA)
这些之间的主要区别是什么?一个人如何选择一个而不是另一个?感谢您的洞察力。
我发现许多算法用于降维。更常用的(例如在此页面上)是:
Principal component analysis (PCA).
Factor Analysis
Independent component analysis (ICA).
Non-negative matrix factorization (NMF or NNMF)
Latent Dirichlet Allocation (LDA)
这些之间的主要区别是什么?一个人如何选择一个而不是另一个?感谢您的洞察力。
一个详细的答案需要很多页的解释,但我认为一个简短的答案可能会为进一步研究指明正确的方向。
首先,降维算法的选择取决于手头的问题和数据。没有黄金标准。您的问题要求决定了尝试的最佳选择。
降维的主要概念是为数据找到具有较少“维度”的替代表示,同时保留数据中包含的大部分原始信息。
从一开始,人们就会发现在使用的空间/尺寸和保留的信息之间存在一些权衡。保留的空间/维度越少,也意味着保留数据中包含的原始信息越少。
诀窍是尽量为手头的问题留下多余和无用的信息。这就是为什么算法的选择关键取决于手头的问题和数据。然后,确实可以减少数据的空间/维度,同时保留所有相关信息。
为了做到这一点,根据数据的性质和特征,可以尝试一些方法:
1. PCA 及其变体
这会将数据分解为“主要/去相关组件”并保留具有最大方差的那些并丢弃其余部分(作为不相关和噪声)。这根据通常由 EVD/SVD 的变体对数据的相关矩阵执行的统计方差(即使用二阶统计)分解数据。
在均方误差意义上, PCA 是最好的线性降维技术。
2. ICA
这将数据分解为“独立分量”,这意味着它使用比仅暗示去相关的二阶统计量更高的统计量。然而,根据算法,某些数据可能不适用于 ICA,因为它们不能是正态分布的(因为对于正态随机变量,去相关也意味着独立性)。注意:PCA 是大多数 ICA 算法(例如 JADE、..)中的预处理步骤
ICA 是一种高阶方法,它寻求线性投影,不一定彼此正交,它们在统计上尽可能独立。统计独立性是比不相关性强得多的条件。
3. 字典和变体
请注意,上述算法会产生一组“基本”组件,这些组件可以构成所有数据的基础。就像向量空间的基向量一样,每个数据都是基本组件的特定组合/样本。或者像字典一样,每个数据都是该字典中元素的组合/样本。但是,如果一个人事先知道某个问题的基本字典怎么办。然后可以尝试在这个基本字典中找到每个数据的最佳表示。或者可以尝试使用一些自适应学习方法来自适应地学习这个基本字典。
4.因素分析
另请注意,前两种方法从数据中提取一组基本因素(即它们等同于数据因素)。但是,如果假设一个更通用的概率设置来提取(线性或非线性)数据因子(因子分析)。例如,PCA/ICA 可以看作是因子分析的一个具体例子,其中因子需要不相关/独立。这种方法是通用的概率形式。
5.其他数据分解方法..
人们可以理解,如果数据具有某些属性,可以在学习用于表示的最佳最小维度时加以利用,则可以尝试利用这些数据属性的数据分解方法的变体。
6.无监督聚类方法..
能够自动找到数据的最佳表示是一个很大的优势。为此可以使用无监督聚类算法,因为它们可以尝试以无监督的方式对数据进行聚类(没有给出先验信息),然后可以选择聚类代表作为最能代表数据的字典或基础因子作为一个整体。这会导致降维(例如 k-means、矢量量化……)
进一步研究的参考资料:
在过去的几十年中,数据收集和存储能力的进步导致大多数科学领域的信息过载。在工程、天文学、生物学、遥感、经济学和消费者交易等不同领域工作的研究人员每天都面临着越来越大的观察和模拟。与过去广泛研究的更小、更传统的数据集相比,此类数据集在数据分析中提出了新的挑战。传统的统计方法之所以崩溃,部分原因是观察数量的增加,但主要是因为与每个观察相关的变量数量的增加。数据的维度是在每个观察值上测量的变量数。高维数据集提出了许多数学挑战和一些机遇,并必将引发新的理论发展。高维数据集的问题之一是,在许多情况下,并非所有测量变量对于理解感兴趣的潜在现象都是“重要的”。虽然某些计算成本高的新方法可以从高维数据构建具有高精度的预测模型,但在许多应用程序中仍然有兴趣在对数据进行任何建模之前降低原始数据的维数。
近几十年来,生物学或化学等实验性生命科学见证了实验数据的爆炸式增长。实验室仪器变得越来越复杂,并且为单个实验报告数百或数千个测量值,因此统计方法在处理此类高维数据时面临着挑战性的任务。然而,大部分数据是高度冗余的,并且可以有效地减少到数量少得多的变量,而不会大量丢失信息。使这种降维成为可能的数学程序称为降维技术。它们已被统计学或机器学习等领域广泛开发,是目前的热门研究课题。