了解冰淇淋销售与温度的 PCA 图
我知道 PCA 的目标是降低维度
这通常是人们所假设的,但实际上 PCA 只是您的数据在正交基础上的表示。这个基础仍然与您的原始数据具有相同的维度。什么都没有丢失……但是。降维部分完全取决于您。PCA 确保新投影的个维度是您的数据可能表示为的最佳最好是什么意思?这就是解释的差异所在。
显然不是在这种情况下
我不会那么肯定!从您的第二个图中,从视觉上看,您的数据中的很多信息都可以投影到水平线上。那是一维,而不是二维的原始图!显然,由于您正在移除 Y 轴,您会丢失一些信息,但是您是否可以接受这种信息丢失,这是您的决定。
网站上有很多关于 PCA 是什么的问题,因此我鼓励您在此处、此处、此处或此处查看它们。如果您在那之后还有其他问题,请发布它们,我很乐意提供帮助。
作为您的实际问题:
PCA 情节中关于温度与冰淇淋的故事是什么?
既然新的坐标轴是原坐标的线性组合,那么……基本上什么都没有!PCA 会给你一个答案,比如(数字组成):
这对你有用吗?也许。但我猜不是:)
已编辑
我将添加这个我认为很有帮助的资源,因为交互式图表很酷。
再次编辑
澄清最佳 的含义:
当数据投影到它们上时,PCA 试图找到产生最高方差的维度。假设您的数据有维,前维可以解释更多的数据差异。这就是我所说的最佳的意思。这对你是否有用是另一回事。
对于 Ilan man 的好答案,我要补充一点,对您的主要成分有一个非常简单的解释,尽管在这个简单的 2D 案例中,它并没有增加我们仅查看散点图就可以解释的内容。
第一个 PC 是温度和冰淇淋消费的加权和(即两个系数均为正的线性组合)。在右边,你有卖很多冰淇淋的热天,在左边,你有冷天,卖的冰淇淋更少。该 PC 解释了您的大部分差异,并且您获得的组与这两个方面相匹配。
第二台 PC 测量温度和冰淇淋消费如何远离第一台 PC 强调的密切线性关系。在图表的上半部分,与相同温度下的其他日子相比,我们销售的冰淇淋更多的日子,而在下半部分,根据温度,销售的冰淇淋比预期的少。那台电脑只解释了一小部分差异。
也就是说,我们可以从主成分中讲述一个故事,尽管只有两个变量,这与没有 PCA 时我们可以注意到的故事相同。有了更多变量,PCA 变得更有用,因为它讲述了其他情况下更难注意到的故事。