经验丰富的开发人员从哪里开始统计

机器算法验证 r 回归 机器学习 参考
2022-01-22 10:32:14

2015 年上半年,我参加了机器学习的 coursera 课程(由 Andrew Ng 教授,GREAT course)。并学习了机器学习的基础知识(线性回归、逻辑回归、SVM、神经网络……)

此外,我已经做了 10 年的开发人员,所以学习一门新的编程语言不是问题。

最近,我开始学习 R 以实现机器学习算法。

但是我已经意识到,如果我想继续学习,我需要更正式的统计知识,目前我对它有非正规的知识,但非常有限,例如,我无法正确确定几个线性模型中的哪一个会更好(通常我倾向于使用 R-square,但显然这不是一个好主意)。

所以对我来说,我需要学习统计学的基础知识似乎很明显(我在大学学过,但大部分都忘记了),我应该在哪里学习,请注意,我并不需要一个完全全面的课程,只是一些东西在一个月内让我知道的足够多,所以我可以变得渴望并了解更多:)。

到目前为止,我已经阅读了“没有眼泪的统计”,还有其他建议吗?

4个回答

我会建议你一个关于如何去做的基本路线图:

奖金:

Metacademy是此类路线图的绝佳站点,我个人保证它是网络上最好的数据科学资源之一。

Gitxiv是另一个漂亮的网站,它将 Arxiv 关于数据科学的研究论文与相关的开源实现/库联系起来。

您是否查看过Think StatsThink Bayes ——它们都是面向程序员的(免费)统计书籍,并且包含大量 Python 代码。

此外,如果您对学习R感兴趣,那么CRAN有很多(免费)pdf 可供您查看,例如Introduction to Probability and Statistics Using R还有一个Coursera 课程使用了很多人非常喜欢的R(他们使用这本教科书,您可能也想查看它,并且我相信在DataCamp上有实验室)。

此外,如果您想复习一些统计主题,您可以随时在可汗学院观看一些视频。

如果你曾经,甚至在遥远的过去,能够解决这个列表中的问题,那么你应该尝试“正确地”研究应用统计。我会给你一个简单的两步算法。

首先,熟悉概率论。有很多很棒的书。我最喜欢的是费勒的经典著作它被称为“介绍”,但不要被标题所迷惑,它有你想去的深度,但如果你只是想略读表面,它写得很好而且很简单。

第二步是统计。再说一次,有很多好书。我会给你一个我用过的,古吉拉特语“基本计量经济学”第四版的一个不错的介绍文本。计量经济学是应用于经济学的统计学作为参考,伯克利经济学家哈尔瓦里安(Hal Varian)是所有人都认为数据科学家将成为未来 10 年最性感的工作的人。很多机器学习的东西都是基于基本的统计、回归等。这本书涵盖了所有内容,你不需要通读,它的编写方式可以让你按照自己的顺序选择章节。

当 Ng 的课在阅读这些课文时快速填满后,您会惊讶地发现有多少空缺。

作为一个从业者,经过这两个步骤,你不需要太多的理论。您可以继续学习 ML 技术,专门阅读该领域的书籍。重要的是不要在一开始就深入到概率和统计数据中。首先让您的代码用于 ML,然后在进行中填补空白。

每个人都在推荐 Casella & Berger,它几乎普遍用于研究生统计课程。这不是一本糟糕的参考书,但我不确定我会做的不仅仅是浏览前 4-5 章。我认为在深入研究“统计”(即数据分析)之前,您不需要了解如何构建 Neyman-Pearson 类型测试的理论。

相反,我会专注于学习方法。我的研究生课程使用应用线性统计方法进行频率测试,这是一本相当不错的综合参考书,但从自学的角度来看,它可能不是最平易近人的书。来自 MIT 或 coursera 的一两门课程可能是一个更好的开始方式,因为与阅读一本书相比,你会通过更多示例获得更广泛的概述。

对于贝叶斯来说,我看到最常用的一本书是《做贝叶斯数据分析》,里面附有小狗图片(显然,这使得这本书优于其他贝叶斯入门教科书)。我自己从未使用过这本书,但我已经翻阅过它,它看起来相当不错 - 比 Gelman 的书要好得多,在贝叶斯统计的两节课之后我发现它有点难以理解 - 解释很糟糕。