我是一名程序员,我如何进入数据科学领域?

数据挖掘 初学者 职业
2021-10-01 02:52:03

首先,这个词听起来很晦涩。

无论如何..我是一名软件程序员。我可以编写的语言之一是 Python。说到数据,我可以使用 SQL 并且可以进行数据抓取。在阅读了很多数据科学擅长的文章后,我到目前为止发现了什么:

1- 统计

2-代数

3- 数据分析

4- 可视化。

5-机器学习。

到目前为止我所知道的:

1- Python 编程 2- Python 中的数据抓取

各位专家能否指导我或建议一个路线图来复习理论和实践?我给了自己大约 8 个月的时间框架。

4个回答

少关注获得技能,多关注获得经验。尝试实际解决一些问题并将您的工作发布在 github 上。您将在此过程中学到更多知识,并能够向雇主展示知识和经验,这比对某个主题或理论有深刻理解更有价值。

数据科学现在是一个负载很大的领域,所以我不确定你具体想做什么样的工作,但假设机器学习是其中的一个组成部分,那么 kaggle.com 是一个很好的起点。在目标方面,如果您能够使用 pandas/numpy/scipy 中的数据,在 sci-kit learn 中构建模型并在 seaborn、ggplot 甚至 matplotlib 中制作一些漂亮的图表,那么您将不会有问题从技能的角度来看一份工作——尤其是如果您有代码示例和示例来展示您的能力。如果您遇到困难,那么 stackexchange 将有答案,或者您可以发布问题,很快就会有答案。一旦你以工作为生,你就会学到更多,很可能是从指导你的高级团队成员那里学到的。

祝你好运。

我确实喜欢伯克利的数据科学课程,这将为数据科学打下良好的基础和品味,之后转向 udacity 和 coursera 以及更多资源。因此,如果您具有编程技能,则需要数学和统计以及大量可视化。习惯 IPython 也很好,因为查看每一步(可视化)它的执行方式是必不可少的,而不是编写整个脚本并在之后进行测试(anaconda 易于安装和使用)。课程在下面列出:bcourses.berkeley.edu/courses/1267848/wiki 也是我从 SAS 找到的不错的免费课程:统计 1:ANOVA、回归和逻辑回归简介 support.sas.com/edu/schedules.html ?ctry=us&id=1979

从 ML 开始会推荐:www.kaggle.com/c/titanic/details/getting-started-with-python

左侧也是使用数据透视表和 R 的 Excel。DataCamp 发布了关于如何使用 R 的教程。一旦你完成了这些步骤,获得经验的比赛就会在 kaggle 上进行(最近为旧金​​山犯罪分类发布了一场),最终来自 www.dataschool.io 的精彩视频教程

希望能帮助到你 ...

不同意 David,真正的数据科学家是一位应用统计学家,他编码并知道如何出于正确的原因使用机器学习算法。统计学是所有数据科学的基础。它本身就是“蛋糕”。其他一切都只是锦上添花。

问题是你想成为什么样的数据科学家?您想成为该主题的大师(了解如何、为什么、何时以及何时不应用算法或技术)还是使用 Scipy 并认为自己是数据科学家的 Kaggle Script Kiddie?

1 - 统计

2- 其他一切

如果你想成为一个有真正知识的实用人,从数学开始(微积分、概率+统计、线性代数)。在每一步都尝试通过编程来实现所有内容,python 对此非常有用。当你取得好成绩时,使用真实数据并解决问题

培训班。线性代数 - edx Laff 或编码矩阵 Stat - edx stat 2x Barkley Calculus - 阅读...很简单