关于数据科学背后的科学和数学的书籍有哪些?感觉很多“数据科学”书籍都是编程教程,不涉及数据生成过程和统计推断之类的东西。我已经可以编码了,我不擅长的是我正在做的事情背后的数学/统计/理论。
如果我准备在书籍上烧掉 1000 美元(所以大约 10 本书......叹息),我能买什么?
示例:Agresti 的分类数据分析、纵向数据的线性混合模型等...等...
关于数据科学背后的科学和数学的书籍有哪些?感觉很多“数据科学”书籍都是编程教程,不涉及数据生成过程和统计推断之类的东西。我已经可以编码了,我不擅长的是我正在做的事情背后的数学/统计/理论。
如果我准备在书籍上烧掉 1000 美元(所以大约 10 本书......叹息),我能买什么?
示例:Agresti 的分类数据分析、纵向数据的线性混合模型等...等...
介绍:
深层发掘:
一些特别感兴趣的例子:
更广泛的机器学习参考作品(不是你真正要求的,而是为了完整性):
奖金纸:
如果我只能向您推荐一个,那就是:Hastie、Tibshirani 和 Friedman的《统计学习和预测的要素》 。它提供了数据科学中许多常用技术背后的数学/统计数据。
对于贝叶斯技术,Gelman、Carlin、Stern、Dunson、Vehtari 和 Rubin 的贝叶斯数据分析非常出色。
Casella 和Berger 的Statistical Inference是一本很好的关于统计学理论基础的研究生水平的教科书。这本书确实需要对数学有相当高的舒适度(概率论是基于测度论的,这并不容易理解)。
关于数据生成过程,我没有推荐一本书。我能说的是,对所使用技术的假设有很好的理解,并确保以不违反这些假设的方式收集或生成数据,这对进行良好的分析大有帮助。
其他答案推荐了一套关于数据科学背后的数学的好书。但正如你所提到的,它不仅仅是数学和数据收集和数据推断等活动有自己的规则和理论,即使不像数学背景那样严格(目前)。
对于这些部分,我建议阅读《美丽数据:优雅数据解决方案背后的故事》一书,其中包含 20 个案例研究,这些章节由真正从事现实世界数据分析问题的人撰写。它不包含任何数学,但探索了诸如收集数据、寻找在分析中使用数据的实用方法、缩放和很好地选择最佳解决方案等领域。
另一本非常有趣的书是Thinking with Data: How to Turn Information into Insights,它也不是技术性的(=编程教程),但涵盖了有关如何在决策和现实世界问题中真正使用数据科学力量的重要主题。
我喜欢 Amir Ali Akbari 的建议,我将添加一些我自己的建议,重点关注大多数专注于数学和/或编程的机器学习和数据分析书籍中没有充分涵盖的主题和技能。
数据清洗:
贝叶斯数据分析(Fisher 式零假设显着性检验的替代方案):
面对不确定性、不完备性、矛盾性、模棱两可、不精确、无知等情况进行推理:
实验:
模拟:
专家启发,概率估计: