“现代”统计的经验法则

机器算法验证 造型 探索性数据分析 经验法则
2022-01-20 22:47:10

我喜欢 G van Belle 关于Statistical Rules of Thumb的书,也喜欢Phillip I Good 和 James W. Hardin的《统计中的常见错误(以及如何避免它们) 》。它们解决了解释实验和观察研究结果时的常见缺陷,并为统计推断或探索性数据分析提供了实用建议。但我觉得“现代”指南有些欠缺,尤其是在各个领域越来越多地使用计算和稳健的统计数据,或者在机器学习社区引入技术,例如临床生物统计学或遗传流行病学。

除了可以在其他地方解决的数据可视化中的计算技巧或常见陷阱之外,我想问一下:对于有效的数据分析,您推荐的主要经验法则是什么?请每个答案一条规则)。

我正在考虑您可能会提供给同事、没有强大统计建模背景的研究人员或中级到高级课程的学生的指导方针。这可能与数据分析的各个阶段有关,例如采样策略、特征选择或模型构建、模型比较、后估计等。

4个回答

在开始分析之前不要忘记做一些基本的数据检查。特别是,查看您打算根据 ID 号、数据收集日期/时间或类似信息分析的每个变量的散点图。当汇总统计数据没有显示任何异常时,眼睛通常可以发现揭示问题的模式。如果您要使用对数或其他转换进行分析,也可以将其用于绘图。

保持分析的可重复性。审阅者或你的老板或其他人最终会问你是如何得出结果的——可能是在你进行分析六个月或更长时间之后。不会记得你是如何清理数据的,你做了什么分析,你为什么选择你使用的特定模型……重建所有这些是一件痛苦的事。

推论:使用某种脚本语言,在分析脚本中添加注释并保留它们。你使用什么(R、SAS、Stata 等等)不如拥有一个完全可重现的脚本重要。拒绝不可能或尴尬的环境。

天下没有免费的午餐

大部分统计失败是通过单击一个名为“计算显着性”的大闪亮按钮创建的,而没有考虑其隐藏假设的负担。

重复

即使涉及对随机生成器的一次调用,也可能运气好或运气不好,因此会得出错误的结论。

我告诉我的学生的一件事是为每个 p 值生成一个适当的图表。例如,如果他们测试相关性,则为散点图,如果他们进行单向方差分析,则为并排箱线图等。