测试小主成分 (PC) 随机性的一种方法是将其视为信号而不是噪声:即尝试用它来预测另一个感兴趣的变量。这本质上是主成分回归 (PCR)。
在 PCR 的预测环境中,Lott (1973) 建议以最大化的方式选择 PCR2; Gunst 和 Mason (1977) 专注于MSE. 具有小特征值(即使是最小的!)的 PC 可以改进预测(Hotelling,1957;Massy,1965;Hawkins,1973;Hadi & Ling,1998;Jackson,1991),并且在一些已发表的预测应用中证明非常有趣(Jolliffe , 1982 年, 2010 年)。这些包括:
上面列出的示例中的 PC 根据其特征值的排名大小进行编号。Jolliffe (1982)描述了一个云模型,其中最后一个组件贡献最大。他总结道:
上面的例子表明,没有必要为了让最后几个主成分在主成分回归中变得重要而找到晦涩或奇怪的数据。相反,这样的例子在实践中似乎相当普遍。希尔等人。(1977) 对选择主成分的策略进行了彻底而有用的讨论,这些策略本应永远掩盖仅基于方差大小的选择思想。不幸的是,这似乎没有发生,而且这个想法现在可能比 20 年前更普遍。
此外,排除小特征值 PC 会引入偏差(Mason & Gunst, 1985)。 Hadi 和 Ling (1998)建议考虑回归SS以及;他们总结了他们的文章:
本文的基本结论是,一般来说,PC 可能无法解释回归拟合。如定理 1 所述,理论上第一个(p−1)PC 几乎可以有 100% 的方差,对拟合没有任何贡献,而响应变量Y可能完全适合最后一个被 PCR 方法忽略的 PC。
PCR 未能解释响应变量的变化的原因是 PC 是基于 PCD [主成分分解] 选择的,它仅取决于X. 因此,如果要使用 PCR,则应谨慎使用,选择要保留的 PC 不仅应以方差分解为指导,还应以每个主成分对回归平方和的贡献为指导。
我把这个答案归功于@Scortchi,他用一些非常有用的评论纠正了我自己对 PCR 中 PC 选择的误解,包括:“ Jolliffe (2010)回顾了其他选择 PC 的方法。” 此参考资料可能是寻找更多想法的好地方。
参考
- Gunst, RF, & Mason, RL (1977)。回归中的有偏估计:使用均方误差的评估。美国统计协会杂志,72 (359), 616–628。
- Hadi, AS 和 Ling, RF (1998)。关于使用主成分回归的一些注意事项。美国统计学家,52 (1), 15–19。取自http://www.uvm.edu/~rsingle/stat380/F04/possible/Hadi+Ling-AmStat-1998_PCRegression.pdf。
- 霍金斯,DM(1973 年)。通过主成分分析研究替代回归。应用统计,22 (3), 275–286。
- Hill, RC, Fomby, TB, & Johnson, SR (1977)。主成分回归的成分选择规范。统计通讯——理论与方法,6 (4), 309–334。
-霍特林,H.(1957 年)。较新的多元统计方法与因子分析的关系。英国统计心理学杂志,10(2),69-79。
-杰克逊,E.(1991)。主要组件的用户指南。纽约:威利。
- Jolliffe,IT(1982 年)。注意回归中主成分的使用。应用统计,31 (3), 300–303。取自http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf。
- Jolliffe,IT(2010 年)。主成分分析(第 2 版)。施普林格。
- Kung, EC 和 Sharif, TA (1980)。印度夏季风开始的回归预测与先前的高空条件。应用气象学杂志,19 (4), 370–380。取自http://iri.columbia.edu/~ousmane/print/Onset/ErnestSharif80_JAS.pdf。
-洛特,WF(1973 年)。最小二乘回归的最佳主成分限制集。统计通讯 – 理论与方法,2 (5), 449–464。
- Mason, RL 和 Gunst, RF (1985)。在回归中选择主成分。统计与概率快报,3 (6),299–301。
- 马西,WF(1965 年)。探索性统计研究中的主成分回归。美国统计协会杂志,60 (309), 234–256。取自http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2065.pdf。
- Smith, G. 和 Campbell, F. (1980)。对一些岭回归方法的批评。美国统计协会杂志,75 (369), 74–81。取自https://cowles.econ.yale.edu/P/cp/p04b/p0496.pdf。