函数调用者与数据科学家

数据挖掘 机器学习 统计数据
2022-02-22 04:43:53

在我们的组织中,有许多从事分析和数据科学的人在他们的工作中表现良好,因为他们知道要使用 R/Python 等中的哪些包,需要哪些算法来解决特定类型的问题等。问题是他们对基础数学知之甚少,除了调用现成的函数之外,他们无法思考,即他们永远无法为特定问题构建自定义解决方案。让我们称他们为函数调用者,而不是真正的数据科学家,他们对基础数学有相当了解。

我们想举办一个培训课程,向函数调用者教授机器学习的数学基础,并帮助他们成为数据科学家。为此,我们入围了十个主题。

• 概率 • 各种概率分布和数据 • 最大似然法 • 线性代数(高级) • 单变量微积分、多变量微积分 • 矢量微积分 • 图形模型 • 贝叶斯网络 • 优化技术 • 统计模型

这将是一门80 小时的课程,因此不可能像大学/大学课程那样详细涵盖所有内容。

问题:假设课程将有足够的时间来教授和实施上述每个主题中的3 或 4件事。那么在这个背景下,每个主题可以涵盖的最好的 3 或 4 件事是什么?

注意:目标受众具有科学或大学水平的数学背景,但他们对机器学习中使用的数学没有深入的了解。

2个回答

我在新加坡国立大学获得了分析硕士学位。

我要给出的答案是基于我的经验。

当然,上面提到的列表中的所有主题都很重要,但是如果您需要从上面提到的主题中优先考虑,我认为以下内容对于任何在数据科学领域工作的人来说都非常重要。

  1. 各种概率和数据分布:在这里您可以对概率进行基本介绍。您不需要单独的概率类。多一点它的应用。
  2. 单变量微积分/多变量微积分:非常重要,当您尝试预测某事时,这起着重要作用。
  3. 图形模型:是的,这些有助于实现各种社区检测算法、社交网络等等。
  4. 贝叶斯网络:这是重要的基本技术之一,所有统计学家都应该知道。
  5. 统计模型:他们需要接触不同的统计模型,因为您知道有许多模型可以在不同的场景中表现得更好,这只能通过实践来实现。

休息一开始并不那么重要,如有必要,您可以根据第一次会议的结果进行另一次会议。您可以在其中涵盖所有主题,如线性代数(高级)、向量微积分、优化技术、最大似然方法。如您所知,这些技术将在准备好基本模型后发挥作用,如果您想提高模型的准确性或根据您的业务问题调整模型 WRT,您将使用这些技术。

我希望这个答案可以帮助你。

我完全理解你的担忧,我很欣赏你想教基础数学这一事实。根据我的经验,我认为更好的方法是不直接学习数学,而是用你已经解决的问题教授数学,即黑客学习数学的方式。作为程序员,我们可以对我们所学的东西进行编程总是一个积极的肯定。这是一个非常好的存储库,其中包含以下内容:https ://github.com/amitkaps/hackermath