好的 PCA 教学示例?

机器算法验证 主成分分析 数据集 教学
2022-03-26 08:42:32

我正在向一类工程师、社会科学家和计算机程序员教授线性代数。我们刚刚做了奇异值分解,我们有额外的一天,所以我想我会谈谈奇异值分解和主成分分析之间的关系。我把讲座的理论部分写得很好,但我发现很难找到好的例子来使用。以下是约束:

  • 我想展示图片。理想情况下,图形本身应该可以很好地工作:散点图中的轴和数据点应该被标记。英文单词比拉丁物种名称好。

  • 正在研究的问题应该很有趣。尼日利亚鱼的形态虽然很重要,但并不是吸引班级注意力的好方法。

  • 与前面的要点相反:没有关于人类种族差异的内容;智力测试什么的都没有。这将引发一场与数学技术无关的热烈讨论。

  • 数学分析方法应该基本上是纯PCA。DW-NOMINATE 项目虽然很棒,但它使用 PCA 作为起点,然后是更复杂的爬山算法。

我认为这很容易。如果我有时间收集数据,我可以很容易地想到十几个有趣的分析项目:参加皮尤研究中心的民意调查,看看 PCA 是否恢复了自由主义者钟爱的社会政策/财政政策轴心。对典型的犬种物理特征进行十几个测量,看看 PCA 是否能找到“牧羊犬”集群。等等,等等……我正在寻找其他已经完成这项工作的人,以便我可以炫耀一下。

2个回答

Shalizi 的笔记中有一些分步指南:http: //www.stat.cmu.edu/~cshalizi/uADA/12/lectures/ch18.pdf,一个是来自 R 的汽车数据集,另一个是纽约时报的艺术和音乐文章。(从文章中包含的单词推断主题是​​一个非常活跃的研究领域。)如果您不知道/不想学习 R,那么您仍然可以使用他的笔记和图形。

编辑:忘了说 Everitt 和 Hothorn 的书中也有几个很好的例子,可以在 SpringerLink 上找到。我记得,一个数据集是喷气式战斗机,还有罗马陶器。

我知道你的演讲太晚了,但这里有一个使用奥林匹克十项全能数据的例子,我发现它在学习 PCA 时非常有用。一些基于 R 的文章:http: //factominer.free.fr/classical-methods/principal-components-analysis.html http://www.math.vu.nl/sto/onderwijs/multivar/ College2.pdf