所以你仍然在基础上,威廉的答案很好,我会在这里列出一些要学习的东西,以及在哪里学习。
1 - 您需要基础知识,这已经比您预期的要多得多:
- 线性代数:了解矩阵求逆的最佳方法可能对计算机科学家有用,但您的目标并非如此。您需要了解概念及其含义和影响,例如:
- 矩阵等级(例如,这可以通过自相关矩阵告诉您,您的数据对于最小二乘之类的事情仍然不够。)
- 向量空间和基本线性变换的含义,例如基数变化
- 特征值和特征向量的含义
- 微积分:还有,注重意义和理解,计算机可以做大部分运算,甚至分析
- 信号和系统:这可能对我有点偏见(因为我是一名信号处理研究人员),但是,学习如何对某些现象进行建模以及它们的行为可能会帮助您解决问题,这基本上是应用线性代数和微积分(大多数事情是)。以真正基础为目标,信号处理是受数据科学/机器学习影响最大的研究领域之一,以至于人们正在进行调查以更改 IEEE 社区的名称。
以上内容可以在很多很多书籍和介绍中找到,搜索它们并不难。
- 统计:机器学习源于统计,这是必不可少的。实际上,您可以从统计的角度而不是函数优化来学习微积分。主题名称中的链接是 Udacity 或 Udemy 的免费课程
重要的是要了解如何使用经典统计数据来避免将计算机浪费在可以轻松解决的问题上。以尽可能简单的方式对事物进行建模并在需要时升级为更复杂的模型是一种很好的做法。
此外,您可能需要一些降维工具,例如:
然后你可以去更复杂的神经网络:
注意:CNN 在计算机视觉应用程序中很常见,但它对数据的唯一要求是它的组织方式允许彼此靠近的数据之间存在有意义的相关性。示例:在时间序列中具有多个传感器的过程可能会受益于 CNN。
数据分析:数据科学家必须与数据有个人关系。对于任何良好的关系,您都需要了解您所爱的人(但与数据的关系通常是有毒的,哈哈哈)。Udacity 有一个不错的 Intro to Data Analysis,也是免费的。
学会表达自己:
- 创建一个 youtube 频道,向社区展示小型教程和课程。
- 尝试回答 Stack Exchange 问题并帮助他人,这将在您提出问题时建立您在社区中的尊重和善意。此外,这是练习在文本中表达想法的好方法。
- 写博客,是拥有笔记本的好方法,也是获得社区关注的好方法。
您可以查看实践书籍,例如 Data Smart 和 Data Science from Scratch。Data Smart 是关于从信息中获得洞察力,而这主要是你作为 D 科学家的工作。
2 - 建立尊重
- 尝试创建包和库并在 GitHub 上提供它们并分享您的相关解决方案。
- 赢得 Kaggle 比赛,许多公司都认真对待 Kaggle ......并且获得好成绩会让你获得好职位。顺便说一句,你不需要赢得第一名。此外,竞赛通常是现实世界问题的好例子,可以让你获得在没有数据科学家角色时无法获得的所需经验。
- 此外,一些比赛的报酬非常高。
- 探索 Kaggle,分享算法,阅读并尝试改进他人,并搜索您可能感兴趣的数据集。
- 制作数据集有点详尽,但可能是在您还没有准备好时赚钱的一种方式。
3 - 获得编程技能
不仅要学习框架,还要了解事物的工作原理和解决问题的基础知识,每天都必须接受测试。此外,从头开始制作一切都很有趣,并且有利于学习,但是当你做你的工作时,你将需要高度成熟的代码,在世界各地检查了数百次。
你需要一些工具,Python是一门很棒的数据科学语言(因为社区很活跃,而且它是免费的,Matlab 有很多不错的工具和精彩的文档,但它真的很贵而且有点慢)
一些顶级库:
- NumPy是最基础的包,好好理解
- 与数据争吵的熊猫
- Seaborn、Bokeh、Plotly 和 Matplotlib 用于绘制内容并帮助您制作好报告
- SciKit-Learn 这通常是测试机器学习算法的最快方法
- Theano 类似于 NumPy,但在构建时考虑了机器学习
- Keras,这是一个用于快速构建神经网络的库,它使用 Theano 或 TensorFlow 作为后端
- TensorFlow、PyTorch 和其他与深度学习相关的东西。
- 此外,您可能想了解一些 JavaScript 和用于在 Web 上获取数据的库的知识。
4 - 更深入
- 你可能永远不需要深度学习,这取决于你要应用的领域,但这是你希望永远不必使用的好核武器,但有一天你可能会:
另外,请记住 DL 是计算密集型的,您希望避免需要它(因为这些很昂贵)
5 - 最后:职业生涯
- 学习永远不会停止,你也永远不会停止学习新概念,每一天。
- 课程很长,请按照自己的节奏进行。尝试获得学习如何使用的基础知识,然后返回并真正学习它
- 尝试获取一些证书并将其发布在您的 LinkedIn 上。在您的博客、LinkedIn 和 Kaggle 上创建一些项目并创建在线文章。
- 在找工作的时候,试着选择一些你可以与之相关的东西。DS 涵盖了广泛的主题,尝试从您理解的事物中获得洞察力比尝试从听起来像随机噪音的事物中获得洞察力更容易
建立合作者网络,帮助您的同事并尝试建立从医学到语言学的庞大网络,他们可能会在查看与您的专业领域无关的数据时告诉您您做错了什么。
最后,这比我预期的要长一点,但是:不要放弃。这是一段漫长的旅程,但无论是在经济上还是个人上,都是荒谬的回报。并尝试不要单独工作,创建一小群人一起工作并制作一些项目。
这是我对 Stack Exchange 问题最长的回答。