关于数据科学中的“科学”的书籍?

数据挖掘 统计数据 参考请求
2021-09-26 22:07:00

关于数据科学背后的科学和数学的书籍有哪些?感觉很多“数据科学”书籍都是编程教程,不涉及数据生成过程和统计推断之类的东西。我已经可以编码了,我不擅长的是我正在做的事情背后的数学/统计/理论。

如果我准备在书籍上烧掉 1000 美元(所以大约 10 本书......叹息),我能买什么?

示例:Agresti 的分类数据分析纵向数据的线性混合模型等...等...

4个回答

如果我只能向您推荐一个,那就是:Hastie、Tibshirani 和 Friedman的《统计学习和预测的要素》 。它提供了数据科学中许多常用技术背后的数学/统计数据。

对于贝叶斯技术,Gelman、Carlin、Stern、Dunson、Vehtari 和 Rubin 的贝叶斯数据分析非常出色。

Casella 和Berger 的Statistical Inference是一本很好的关于统计学理论基础的研究生水平的教科书。这本书确实需要对数学有相当高的舒适度(概率论是基于测度论的,这并不容易理解)。

关于数据生成过程,我没有推荐一本书。我能说的是,对所使用技术的假设有很好的理解,并确保以不违反这些假设的方式收集或生成数据,这对进行良好的分析大有帮助。

其他答案推荐了一套关于数据科学背后的数学的好书。但正如你所提到的,它不仅仅是数学和数据收集和数据推断等活动有自己的规则和理论,即使不像数学背景那样严格(目前)。

对于这些部分,我建议阅读《美丽数据:优雅数据解决方案背后的故事》一书,其中包含 20 个案例研究,这些章节由真正从事现实世界数据分析问题的人撰写。它不包含任何数学,但探索了诸如收集数据、寻找在分析中使用数据的实用方法、缩放和很好地选择最佳解决方案等领域。

另一本非常有趣的书是Thinking with Data: How to Turn Information into Insights,它也不是技术性的(=编程教程),但涵盖了有关如何在决策和现实世界问题中真正使用数据科学力量的重要主题。