参考请求:工作数据科学家的经典统计

机器算法验证 假设检验 参考 常客 推理
2022-03-27 21:45:22

我是一名在职数据科学家,在回归、其他机器学习类型算法和编程(数据分析和通用软件开发)方面拥有丰富的经验。我的大部分工作生涯都集中在构建预测准确性的模型(在各种业务限制下工作),以及构建数据管道以支持我自己(和其他人)的工作。

我没有接受过正规的统计学培训,我的大学教育专注于纯数学。因此错过了学习许多经典主题,尤其是各种流行的假设检验和推理技术。

这些主题是否有任何适合具有我背景和经验水平的人的参考资料?我可以处理(和欣赏)严谨的数学,也喜欢算法的观点。我倾向于喜欢那些为读者提供指导练习的参考资料,同时(或两者之一)以数学和(或)编程为重点。

2个回答

Larry Wasserman 的All of Statistics是一本很好的书,可以让您快速了解数理统计。这是我自己使用的第一本关于数理统计的书。它包括假设检验和最大似然估计等经典知识,但它也涵盖了最近开发但同样重要的主题,如自举。Wasserman 总是一只脚涉足统计学,另一只脚涉足机器学习,我认为所有当代数据分析师都应该这样做;如果您只熟悉这两个领域中的一个,那么您将错过很多。另外,书中有很多很好的练习。

如果你有实际分析的背景,并且想要原始的、未删减的东西,我的意思是概率和统计的度量理论处理,试试 Mark J. Schervish 的统计理论Schervish 是 DeGroot 和 Schervish 的一半,后者技术含量较低的《概率与统计》一书可能是当今最流行的数理统计书籍。统计理论是一本很有帮助的谈话书,主题通常是为那些应该自己完成所有工作的研究生保留的。说实话,我觉得这本书很难(虽然没有邵君的数理统计那么难)) 并最终觉得掌握它所需的巨大努力并没有很好地利用我作为应用数据分析师的时间。但是我仍然学到了很多东西,并且很好地理解了测度论是什么,以及如何使用它来解决在更幼稚的传统概率论方法中出现的棘手的理论难题。我也开始更好地理解可交换性和独立性的异同。

除了 Kodiologist 的非常好的建议(+1),我还建议您查看观察性研究的主题。我认为这是数据科学家之间非常不受重视的领域,尽管在许多情况下分析的数据具有观察性质。我认为这是因为大部分参考书目(尤其是在生物统计学中)假设至少一些准实验设计已经到位。Paul Rosenbaum 的著作 Observational StudiesDesign of Observational Studies是一些最常用的参考资料。