您建议为数据挖掘和机器学习准备哪些数学科目?

机器算法验证 机器学习 参考 数据挖掘
2022-02-10 23:26:28

我正在尝试编写一个自主的数学课程,为学习数据挖掘和机器学习做准备。这是因为在 Coursera 上开始了Andrew Ng 的机器学习课程,并且觉得在继续之前我需要提高我的数学技能。我不久前从大学毕业,所以我的代数和统计(特别是政治学/心理学课程)生疏了。

线程中的答案强大的数学背景是 ML 的全部必要条件吗?只推荐与机器学习直接相关的书籍或课程;我已经查看了其中一些课程和书籍,但并不确切知道要学习什么数学科目(例如:数学地址的哪个领域[s]推导出一个方程式以“最小化成本函数”?)。建议的另一个线程(需要成为数据分析师的技能和课程)只提到了分析数据所需的广泛技能类别。数学家的统计简介线程不适用,因为我还没有数学学位;一个类似的线程数学家想要与质量统计学位相当的知识有一个令人难以置信的统计书籍清单,但我再次考虑从对代数的生疏回忆开始数学并从那里向上移动。

那么,对于那些从事机器学习和数据挖掘工作的人,您认为哪些数学领域对您的工作至关重要?您建议为数据挖掘和机器学习准备哪些数学科目,以什么顺序?这是我到目前为止的列表和顺序:

  • 代数
  • 预微积分
  • 结石
  • 线性代数
  • 可能性
  • 统计(这里有很多不同的子领域,但不知道如何分解它们)

至于数据挖掘和机器学习,通过我目前的工作,我可以访问有关网站/应用程序活动、客户/订阅交易和房地产数据(静态和时间序列)的记录。我希望将数据挖掘和机器学习应用于这些数据集。

谢谢!

编辑:

为了后人的缘故,我想分享一个有用的数学自我评估,用于 CMU 的 Geoffrey Gordon/Alex Smola 的机器学习简介课程。

4个回答

@gung 提出的建议当然值得跟进。完成 coursera 课程后,我认为你的清单是一个好的开始。一些评论:

  1. 线性代数和矩阵代数是一回事,所以放弃后者。
  2. 在微积分中一定要包括偏微分。这是应用于多个变量的函数的微积分(象征性地,如果说的函数,那么你想要而不是 )。幸运的是,这并不难。zxyzxdzdx
  3. 在微积分中,除了基本积分之外,您不需要任何东西(甚至可能不需要)。这是幸运的,因为整合很困难。
  4. 添加基本​​优化,即找到函数的最大值或最小值,通常是多个变量的函数。至少了解梯度下降是必不可少的。
  5. 就难度而言,您可能希望介于本科一年级的开始和结束之间。
  6. 尝试在线或其他方式阅读一些基本的概率和统计文本,但不要太担心(无论如何,基本数学是理解概率和统计的先决条件)。如果您参加一些课程,例如您建议的课程,您将弄清楚您需要学习什么以及您的兴趣所在。至少一开始你不想做的一件事是花大量时间学习假设检验。您宁愿引导理解基本统计数据——随机变量、概率分布(PFD、CDF)、描述性统计数据——然后尝试理解回归。

我将添加Marc Peter Deisenroth于 2020 年出版的《机器学习数学》一书,看起来像是一个很好的基础,包括以上内容等等。

这个论坛上有几个很棒的主题——包括我发现在制定数据科学工作重要技能的概念大纲方面对我特别有帮助的主题。

如上所述,有许多在线课程可供选择。例如,Coursera 现在有一个数据科学专业,其中包含许多课程,这些课程可能涵盖您工作所需的一些工具。

如果您希望增加机器学习/数据挖掘,我强烈建议您使用优化/线性代数/统计和概率。是概率的书籍清单。希望有帮助。

至于刷非常非常基本的数学技能,我正在使用这些书:

经济学和金融学的数学要素。Mavron, Vassilis C., Phillips, Timothy N 这本书涵盖了基本的数学技能(加减法)、偏微分、积分、矩阵和行列式,以及关于优化和微分方程的一小章。它的目标是经济和金融,但它是一本小书,章节顺序适合我的需要,对我来说很容易阅读。

统计分析:Microsoft Excel 2010。Conrad Carlberg 涵盖基本统计分析、多元回归和协方差分析,它使用 excel。

使用 R. Andy Field、Jeremy Miles、Zoë Field 发现统计数据。还没读过。它使用 R。

初等线性代数。罗恩·拉尔森、大卫·C·法尔沃。

矩阵方法:应用线性代数 作者:Richard Bronson、Gabriel B. Costa。涵盖基本线性代数和矩阵微积分

这些是我用来与数据挖掘/机器学习相关的基本数学书籍

希望这可以帮助