数学博士(非线性规划)转向数据科学?

数据挖掘 机器学习 深度学习 数据清理 数据分析 参考请求
2021-09-30 07:59:02

我是数学博士。毕业后有兴趣作为数据科学家进入该行业的学生。在提出问题之前,我将简要介绍一下我的教育背景,以便更好地理解:

数学课程:

这主要是纯数学:拓扑、泛函分析等,但也包括更多应用的(我专门针对论文):凸优化、非线性规划、数值分析、线性规划、多目标优化。此外,我现在对推理统计的了解为 0,但我对概率论很有信心。

编程:

我刚刚参加了为期一年的学士学位课程,但主要是数学和一些 Java,老实说我什么都不记得了。在本课程中,内容不包括任何数据结构或算法的设计和分析,也不包括数据库管理系统。我还自学了 Matlab,用于在学士论文中实现算法。

上述背景是在学士和硕士课程期间。现在,在博士期间。程序,我发现机器学习(对我来说)是非线性优化、编程和现实世界中的应用程序之间的完美结合,即它在理论上很有趣和面向应用程序。这就是为什么我对进入工业界如此兴奋的原因。因此,在过去的 3 年里,我开始自学(在我小小的空闲时间)。

学到的东西的简短摘要:

  • Python:我很擅长实现优化算法,使用 jupyter notebooks 和 numpy 库(事实上,我必须在论文中这样做),以及在 pandas 中执行基本的数据操作和清理任务。这是我在一个名为 dataquest ( https://app.dataquest.io ) 的平台上在线学习的。但是,我认为我没有足够的知识来通过数据结构和算法的面试(见上文)。

  • 机器学习:我在大学学习了该主题的硕士课程(因为我在德国,我们没有博士课程,所以这都是我个人的时间),我真的很喜欢。主题包括:k-NN、PCA、SVM、NN 等。

  • 本学期参加数据库课程,重点是 SQL。

  • 本学期在 Coursera 上学习深度学习专业。

最后,我想说我觉得自己完全有能力学习这些主题。事实上,随着时间的推移,我打算参加更多的在线研究生课程(例如,斯坦福 CS231N、CS234 等),因为在我看来,在线课程可能不够严谨。希望在防守之后,我能够全神贯注于此。

因此,问题:

  • 我现在还能被录用吗(我的意思是,在完成本学期的上述知识之后)?老实说,我认为我还没有准备好,但我有信心在一年内变得体面。

  • 我是不是太天真地认为公司会给我机会?

  • 在任何情况下,我应该怎么做才能变得更受欢迎?

4个回答

数据科学工作涵盖范围广泛的不同活动,因此任何答案都可能是主观的。我在学术界,所以我对就业市场的了解有限,但据我所知:

  • 当前的环境非常有利于寻找工作的数据科学家,因此任何具有 ML 基本知识的人都有机会。你已经超过了这个水平,所以不用担心这个前面恕我直言。这种趋势很可能会继续这样下去,但没有人知道未来。
  • 理想情况下,为了增加你的机会,你应该能够证明你有一些实践经验:例如 github 项目、参加 ML 竞赛等。
  • 不要忽视你的数学博士学位:你似乎有很多空闲时间来学习数据科学,这对你有好处......但确保博士学位是你的首要任务,即使它会成为你简历中的重要资产它与数据科学无关。

我不同意其他答案,但是您应该牢记以下不同的观点。此外,作为离开学术界(应用数学/CS)从事数据科学的人,我可以为您的具体问题提供答案。

简而言之,了解业务问题的潜在需求和用例对于任何项目都至关重要,因此,如果您希望在数据科学职业中获得最广泛的影响力,那么培养强大的商业意识和跨职能沟通技巧至关重要。

  • 我现在还能被录用吗(我的意思是,在完成本学期的上述知识之后)?老实说,我认为我还没有准备好,但我有信心在一年内变得体面。
  • 我是不是太天真地认为公司会给我机会?

我将一起回答这些问题。这在很大程度上取决于公司及其当前的需求。对您来说,这可能会随着“初创公司”到“企业”和“机器学习商店”到“一般数据驱动业务”的维度而有所不同。对于后者,我的意思是有些公司的唯一目的是向客户销售 ML 产品或服务,而一般科技公司则希望在其业务中利用建模。您可能会发现与已经构建了 ML 用例或由其他人指定的公司更快/更容易适应,因为您不太可能有能力为新项目的启动制定战略。

因此,对于拥有专门研究 ML 模型技术的部门而公司的其他部门确定业务战略和设计的大型企业,或者专注于将 ML 作为其产品/服务。

在短期内,是的,您可能可以说服某人让您担任某些项目的实习生或助理,但如果您与想要雇用通才的中小型公司交谈,您的博士学位可能会被视为潜在的缺点/万事通……

  • 在任何情况下,我应该怎么做才能变得更受欢迎?

这让我想到了这一点。你可以选择你自己的冒险,因为有很多类型的角色,但你应该知道每个潜在雇主正在寻找什么样的角色和情况,并对你如何适应它保持现实。有很多雇主没有清楚地表达他们想要什么或需要什么,甚至自己也不知道那是什么您最好与他们一起弄清楚这一点,以避免严重失望。

如果您想拓宽数据科学领域的视野并确保您拥有最高的业务影响力和专业发展机会,那么您需要了解更多有关数据科学业务应用的信息。这些是高度多样化的,并且在实践中更加非正式,并且对整体业务的影响比担心伪反转矩阵的优化更重要。

尽管在其他发布的关于市场的答案中给出了合理的意见,但我认为对于以下数据科学家来说存在巨大的市场赤字:

  • 真正了解业务需求,能与非技术人员有效沟通
  • 制定和执行涉及一般数据驱动问题解决的计划,这可能涉及也可能不涉及构建“酷”模型(坦率地说,他们可能不会,至少在更传统的探索方法很好地理解问题之前不会)。

Erwan 做到了(+1)。但我认为我的补充有点太长了,无法发表评论。

当我找到 DS 工作时,你似乎远远领先于我。当我申请行业数据科学时,我是纯数学的,有几个博士后,并且只有很短的自学时间。

另一方面,我本科时参加了精算考试,这可能帮助我进入了金融科技领域。申请时,强调您已经知道的内容,并确认您在最初几个月需要学习的内容(更强大的编程?使用 git?...)。

(另外,你在 ML 课程中没有提到基于树的模型:我猜这只是一个遗漏,但除非你试图进入神经网络的行业,否则这些似乎是最重要的模型是常态。)

只是不要盲目地接受这个建议:你在数学中提到的主题是使用机器学习/深度学习解决问题的核心,编程是一种工具来实现你学习的所有这些理论,并在此基础上创建你的假设,然后通过在代码中实现它来进行测试,因为您不需要编码器的编码技能,您应该了解您使用的数据结构,尤其是数据帧和张量操作以及您将在实现时学习的休息。你最好的部分是你有数学的基础知识(我假设你知道概率统计多元微积分,泛函分析和你提到的其他主题我不会详细介绍,因为你已经在攻读博士学位.

我建议你通过 Jeremy Howard(他实际上是深度学习之神)教授的 Fast.ai 的所有课程,他的程序员实用深度学习课程除了对神经网络背后数学的核心理解之外,还包含许多知识你可以去阅读 Michael Nielsen 的博客,名为neuralnetworksanddeeplearning.com,它实际上是一本书,也是一本很棒的书,你会喜欢数学解释,为了更多的理解,你可以随时去阅读 Chris olah 的博客,它很棒。

所以现在问题是你仍然可以获得许多研究实习并在工业环境中去那里学习,但我宁愿建议你,给自己一些时间通过这些课程来掌握这件事,并且在你身后有数学,你准备做任何事情。看,现在的数据科学就像每个人都想成为一个人,只要拿到 6 位数的薪水就可以完成,但并不是说数据科学不是你可以一次全部学习的东西,这需要时间,

所以,给自己一些时间耐心等待,继续阅读关于现在免费提供的最新主题的文献论文,所以继续前进。