了解冰淇淋销售与温度的 PCA 图

机器算法验证 主成分分析 解释 k-均值 降维
2022-03-01 07:04:15

我正在获取温度与冰淇淋销售的虚拟数据,并使用 K 均值(n 簇 = 2)对其进行分类以区分 2 个类别(完全虚拟)。

现在我正在对这些数据进行主成分分析,我的目标是了解我所看到的。我知道 PCA 的目标是降低维度(在这种情况下显然不是)并显示元素的方差。但是您如何阅读下面的 PCA 图,即您可以讲述PCA 图中温度与冰淇淋的故事是什么?第 1 (X) 和第 2 (Y) PC 是什么意思?

在此处输入图像描述

2个回答

我知道 PCA 的目标是降低维度

这通常是人们所假设的,但实际上 PCA 只是您的数据在正交基础上的表示。这个基础仍然与您的原始数据具有相同的维度。什么都没有丢失……但是。降维部分完全取决于您。PCA 确保新投影的个维度是您的数据可能表示为的最佳最好是什么意思?这就是解释的差异所在。k k

显然不是在这种情况下

我不会那么肯定!从您的第二个图中,从视觉上看,您的数据中的很多信息都可以投影到水平线上。那是一维,而不是二维的原始图!显然,由于您正在移除 Y 轴,您会丢失一些信息,但是您是否可以接受这种信息丢失,这是您的决定。

网站上有很多关于 PCA 是什么的问题,因此我鼓励您在此处此处此处此处查看它们。如果您在那之后还有其他问题,请发布它们,我很乐意提供帮助。

作为您的实际问题:

PCA 情节中关于温度与冰淇淋的故事是什么?

既然新的坐标轴是原坐标的线性组合,那么……基本上什么都没有!PCA 会给你一个答案,比如(数字组成):

PC1=2.5×ice cream3.6×temperaturePC2=1.5×ice cream+0.6×temperature

这对你有用吗?也许。但我猜不是:)

已编辑

我将添加这个我认为很有帮助的资源,因为交互式图表很酷。

再次编辑

澄清最佳 的含义:k

当数据投影到它们上时,PCA 试图找到产生最高方差的维度。假设您的数据有维,前维可以解释更多的数据差异。这就是我所说的最佳的意思。这对你是否有用是另一回事。n>kkk k

对于 Ilan man 的好答案,我要补充一点,对您的主要成分有一个非常简单的解释,尽管在这个简单的 2D 案例中,它并没有增加我们仅查看散点图就可以解释的内容。

第一个 PC 是温度和冰淇淋消费的加权和(即两个系数均为正的线性组合)。在右边,你有卖很多冰淇淋的热天,在左边,你有冷天,卖的冰淇淋更少。该 PC 解释了您的大部分差异,并且您获得的组与这两个方面相匹配。

第二台 PC 测量温度和冰淇淋消费如何远离第一台 PC 强调的密切线性关系。在图表的上半部分,与相同温度下的其他日子相比,我们销售的冰淇淋更多的日子,而在下半部分,根据温度,销售的冰淇淋比预期的少。那台电脑只解释了一小部分差异。

也就是说,我们可以从主成分中讲述一个故事,尽管只有两个变量,这与没有 PCA 时我们可以注意到的故事相同。有了更多变量,PCA 变得更有用,因为它讲述了其他情况下更难注意到的故事。