学校不教你的技能

数据挖掘 机器学习 Python r 数据 apache-hadoop
2021-10-01 00:42:46

我即将毕业并获得电气工程硕士学位。我通过课程和研究在机器学习的理论方面积累了很多经验,但我在机器学习/数据科学方面的所有经验都是通过 Matlab 完成的。

有没有人了解雇主希望我在找到工作之前增加的技能?我一直在查看帖子,似乎大多数我不擅长的东西是:SQL、Hadoop、Python 和 R。

Python 和 R 都是必需的,还是多余的?SQL 和 Hadoop 是雇主会忽略的吗?因为坦率地说,我发现学习两者都令人难以忍受的无聊。最后,我是否缺少此技能列表中的任何内容?

4个回答

根据我自己的经验和阅读其他人所写的内容,SQL 是雇主寻求的技能之一,甚至可能假设您具备一些沟通和团队合作的基本技能。主要原因是大量数据存储在关系数据库中,而 SQL 是提取数据以将其放入模型的主要方式。

我相信技术是便宜的,而科学是昂贵的。你可以很快地学习 R、Python、SQL 和 Hadoop(考虑到你知道编程),但是学习统计、机器学习和处理数据的方法是困难的并且需要时间。(根据你的背景你就知道了)在我眼里,带着自信去求职吧。同时,考虑学习 SQL 和 Python。它们是工业工作所必需的。

工业数据科学工作的一个重要组成部分是数据争论。对数据存储系统有一些基本的了解非常重要,因为您经常必须自己提取所需的数据(除非您为大公司工作)。Hadoop 可能不是必备技能,但了解一些关系数据存储 (SQL) 和对象存储 (No-SQL) 将非常有用。一个人通常也需要能够快速处理数据,因此您需要了解一些优化,例如索引。

我在 python 和 R 中工作(我个人认识的大多数从业者也是如此),但发现 python 更容易在生产环境中部署。如今,大部分工作都依赖于库,因此了解该语言的库环境很有用(在项目时间表方面,熟悉您的工具可以极大地减轻您和您的团队的压力)。人们在 jupyter/ipython notebooks 中试验并在线提供他们的代码是很常见的(例如KDNuggets 帖子)。我们经常在工作中使用笔记本并将它们提交到代码库,为解决方案提供经验支持。我建议您找到一些与数据库接口的酷笔记本,看看您是否可以运行他们的代码(通常是 python)。至少通过这种方式,您将开始感受到与工具相关的更多繁琐工作(考虑到您已经具备理论背景)。

如果你觉得学习 SQL 和 Hadoop 无聊到无法忍受,那么你不应该寻找数据科学家的工作。无论如何,请随意跳过 Hadoop。Hadoop 有很多部署,但它们正在被更现代的技术淘汰,例如 Spark,这也是大多数公司用于新部署的。我希望你觉得学习 Spark 更容易忍受。使用 Spark 进行机器学习的 Edx 在线课程实际上非常好。