有哪些好的数据集可以说明统计分析的特定方面?
低出生体重研究
这是 Hosmer 和 Lemeshow 的应用逻辑回归教科书(2000,Wiley,第 2 版)中的数据集之一。这项前瞻性研究的目的是确定与生下低出生体重婴儿(体重小于 2,500 克)相关的风险因素。收集了 189 名妇女的数据,其中 59 名婴儿出生体重不足,130 名婴儿出生体重正常。被认为重要的四个变量是年龄、末次月经时受试者的体重、种族和怀孕前三个月就诊的次数。
它在 R asdata(birthwt, package="MASS")
或在 Stata 中可用webuse lbw
。此处显示文本版本:lowbwt.dat ( description )。值得注意的是,该数据集有多个版本,因为它已扩展到病例对照研究(1-1 或 1-3,年龄匹配),如 ALR 第 7 章中的 Hosmer 和 Lemeshow 所示。
我曾经根据这个数据集教授入门课程,原因如下:
- 从历史和流行病学的角度来看,这很有趣(数据收集于 1986 年);不需要医学或统计学的先前背景来理解主要思想以及可以从该研究中提出哪些问题。
- 提供了几种混合类型(连续、有序和名义)的变量,这使得呈现基本关联测试(t 检验、ANOVA、- 测试双向表、优势比、Cochrane 和 Armitage 趋势测试等)。此外,出生体重可作为连续测量和二元指标(高于或低于 2.5 公斤):我们可以开始建立简单的线性模型,然后进行多元回归(从先前的探索性分析中选择感兴趣的预测变量),然后切换到 GLM(逻辑回归),可能会讨论截止点的选择。
- 它允许讨论不同的建模观点(解释性或预测性方法),以及开发模型时抽样方案的含义(分层/匹配案例)。
其他可以强调的点,取决于受众和统计软件的专业水平,或一般的统计数据。
对于 R 中可用的数据集,分类预测变量以整数进行评分(例如,对于母亲的种族,我们有 '1' = 白色,'2' = 黑色,'3' = 其他),尽管某些预测变量的自然排序(例如,之前早产的次数或医生就诊的次数)或使用明确的标签(对于二元变量,使用“是”/“否”而不是 1/0 总是一个好主意,即使那不是” t 改变设计矩阵中的任何东西!)根本不存在。因此,很容易讨论在数据分析中忽略级别或测量单位可能会引发哪些问题。
混合类型的变量在进行探索性分析和讨论哪种图形显示适合总结单变量、双变量或三变量关系时很有趣。同样,生成漂亮的汇总表和更一般的报告是该数据集的另一个有趣方面(但该
Hmisc::summary.formula
命令在 R 下变得如此简单)。Hosmer 和 Lemeshow 报告说,实际数据已被修改以保护受试者的机密性(第 25 页)。讨论数据机密性问题可能会很有趣,就像我们早期的期刊俱乐部之一所做的那样,但请参阅其成绩单。(我必须承认我从不详细说明。)
很容易引入一些缺失值或错误值(这是统计学家现实生活中的常见问题),这会导致讨论(a)通过码本(
Hmisc::describe
或 Stata 的codebook
)或探索性图形(总是先绘制数据!)对它们的检测, 和 (b) 可能的补救措施(数据插补、列表删除或关联的成对测量等)。
当然,Anscombe 4 数据集非常适合教学 - 它们看起来非常不同,但具有相同的简单统计属性。
我还建议使用 KDD Cup 数据集http://www.kdd.org/kddcup/ ,因为它们已经得到很好的研究并且有很多解决方案,因此学生可以比较他们的结果并查看他们的排名。
在我的数据挖掘课程中,我提供了一个可供教授使用的微阵列数据集竞赛 http://www.kdnuggets.com/data_mining_course/
我在 Cal Poly 的很多统计分析课程都使用了 R 中已经存在的“Iris”数据集。它具有分类变量和高度相关的变量。
Harrell 在“回归建模策略”中使用的 Titanic 数据集。在解释逻辑回归,使用性别、阶级和年龄来解释生存时,我使用了他分析的简化版本。
Gerry Quinn 和 Mick Keough 在“生物学家的实验设计和数据分析”中讨论的Loyn 数据集包含需要转换为多元线性回归的好问题。