奇异值分解的意义何在?

机器算法验证 降维 svd
2022-03-10 06:49:49

我不明白为什么缩小尺寸很重要。获取一些数据并减少它们的维度有什么好处?

3个回答

奇异值分解 (SVD) 与降低数据的维数不同。这是一种将矩阵分解为其他矩阵的方法,它具有许多奇妙的属性,我不会在这里介绍。有关 SVD 的更多信息,请参阅Wikipedia 页面

降低数据的维度有时非常有用。可能你的变量比观察多得多;这在基因组工作中并不少见。可能是我们有几个高度相关的变量,例如,当它们受到少数潜在因素的严重影响时,我们希望恢复对潜在因素的一些近似值。诸如主成分分析、多维缩放和典型变量分析等降维技术使我们能够深入了解观察结果和/或变量之间的关系,而这些关系可能无法通过其他任何方式获得。

一个具体的例子:几年前,我正在分析一项包含 100 多个问题的员工满意度调查。好吧,没有一个经理能够查看 100 多个问题的答案,甚至是总结的,并且除了猜测这一切意味着什么之外,还可以做更多的事情,因为谁能说出答案是如何相关的,以及是什么推动了它们,真的? 我对数据进行了因子分析,对此我有超过 10,000 次观察,并提出了五个非常清晰且易于解释的因素,可用于制定经理特定分数(每个因素一个),以总结整个超过 100 个问题的调查。比以前的报告结果方法的 Excel 电子表格转储更好的解决方案!

关于问题的第二点,数据集降维的好处可能是:

  • 减少所需的存储空间
  • 加速计算(例如在机器学习算法中),更少的维度意味着更少的计算,更少的维度可以允许使用不适合大量维度的算法
  • 删除多余的特征,例如以平方米和平方英里存储地形大小没有意义(可能数据收集存在缺陷)
  • 将数据的维度减少到 2D 或 3D 可以让我们绘制和可视化它,也许观察模式,给我们洞察力

除此之外,除了 PCA,SVD 在信号处理、NLP 等领域还有很多应用

看看我的这个答案奇异值分解是主成分分析的关键组成部分,是一种非常有用且非常强大的数据分析技术。

它经常用于面部识别算法,我在作为对冲基金分析师的日常工作中经常使用它。