我只是想从 sklearn 的文档中重复一个基准。
不清楚的部分是:n_components = np.arange(0, n_features, 5)
。他们正在应用 0 个分量的 PCA 变换!
请有人解释一下,这种变换的数学含义是什么?
我只是想从 sklearn 的文档中重复一个基准。
不清楚的部分是:n_components = np.arange(0, n_features, 5)
。他们正在应用 0 个分量的 PCA 变换!
请有人解释一下,这种变换的数学含义是什么?
可以这样想:PCA“转换”组件基本上近似于您的维数据点,通过将它们投影到维线性子空间,尽量不丢失太多的数据方差。
更准确地说,您所做的是代表您的原始点作为:
在哪里是低维的“新坐标”,是您的数据的平均值,并且是主成分向量的矩阵。
“新坐标”告诉您需要执行多少步骤 主成分,以达到最佳可能的线性近似 从开始您的旅行 .
现在,如果 模型变为:
换句话说,您将所有数据建模为单个固定中心点。当然,您不需要在此处存储任何“新坐标”(因为您不需要远离均值),因此作为“变换”没有多大意义,但它仍然是,一个适当的概率模型(准确地说,是误差的高斯分布的最大似然拟合)。
特别是,您可以谈论此模型下数据的对数似然(即,直到仿射变换,等于此处的平方误差之和,但并不像您在一般情况下想象的那么微不足道)和我们可以比较各种模型,选择最有可能的模型。这正是您在问题中提到的文档的示例中所做的。