对于没有技术背景的高级领导层的人来说,什么是直观的 PCA 解释?

数据挖掘 预言 主成分分析
2022-02-28 22:42:41

我在工作中参与了我的第一个数据科学项目。基于网络流量数据等预测销售的经典问题。虽然我不知道我将在我的模型中使用的具体技术,但我认为 PCA 可能会在某个时候尝试,如果我成功使用它作为在将数据输入某个估算器之前的预处理步骤,我正在考虑如何捍卫/解释我的工作。

我的问题是,对于不严重依赖构成该过程的线性代数的 PCA 的直观解释是什么?也许一个类比可以与任何外行都容易理解的事物相提并论?

3个回答

我认为 PCA 的主要问题之一是 PC 本身是一个非常抽象的概念,不能很好地映射到现实世界中的任何事物。

对于非技术人员来说,它缺乏参考点,并且无法产生易于操作的洞察力(即,“如果我们将字体颜色更改为蓝色,销售额会提高”)

因此,我建议您专注于讲故事(例如,什么?,那又怎样?,现在是什么?框架等),并且只在被问到时详细说明 PCA 是什么。

例如:什么:我们建立了一个基于网络流量的预测模型来预测销售。那又怎样:模型表明,如果我们执行 xyz xyz 并将 xyz 增加 xyz,则销售额可能会增加 xyz。现在是什么:我们应该通过运行受控测试来验证这样的假设,等等等等。如果可行,我们应该采用新流程。

尽量让你的解释简单明了。也许像“PCA 将数据集的特征提炼成尽可能少的属性;这些属性尽可能多地解释观察到的趋势,同时尽可能地彼此不同”。如果您可以使用视觉辅助工具做到这一点,那就更好了。

就类比而言,也许可以举一个车祸的例子。事故的预测因子有很多,但 PCA 可能会将其中的大部分组合成 2 个特征——可能是车辆属性和驾驶员属性。这些是不同的,但可以说都是对车祸的高度预测。[我意识到这在技术上不是 PCA 的工作方式,但可能有助于外行理解]。

假设您将页面访问次数测量为 x,将在页面上花费的时间测量为 y,假设您为特定页面的每个访问者/客户测量它。如果您创建 x 与 y 的散点图,那么您将获得二维空间中的高斯点云。PCA 可以将您的数据(云)从 2D 转换为 1D,您可以使用单个变量而不是 2 个变量来解释您的数据。一旦减少数据维度,您的问题(例如对客户进行聚类或分类)将更容易解决。