我喜欢 G van Belle 关于Statistical Rules of Thumb的书,也喜欢Phillip I Good 和 James W. Hardin的《统计中的常见错误(以及如何避免它们) 》。它们解决了解释实验和观察研究结果时的常见缺陷,并为统计推断或探索性数据分析提供了实用建议。但我觉得“现代”指南有些欠缺,尤其是在各个领域越来越多地使用计算和稳健的统计数据,或者在机器学习社区引入技术,例如临床生物统计学或遗传流行病学。
除了可以在其他地方解决的数据可视化中的计算技巧或常见陷阱之外,我想问一下:对于有效的数据分析,您推荐的主要经验法则是什么?(请每个答案一条规则)。
我正在考虑您可能会提供给同事、没有强大统计建模背景的研究人员或中级到高级课程的学生的指导方针。这可能与数据分析的各个阶段有关,例如采样策略、特征选择或模型构建、模型比较、后估计等。