如何自学数据科学?

数据挖掘 初学者 自习
2021-09-28 01:12:11

我是一名自学成才的 Web 开发人员,并且有兴趣自学数据科学,但我不确定如何开始。特别是,我想知道:

  1. 数据科学有哪些领域?(例如,人工智能、机器学习、数据分析等)
  2. 有没有人可以推荐的在线课程?
  3. 有没有我可以练习的项目(例如,开放数据集)。
  4. 是否有我可以申请或完成的认证?
3个回答

欢迎来到这个网站,马丁!这是一个相当广泛的问题,所以你可能会得到各种各样的答案。这是我的看法。

  1. 数据科学是一个跨学科领域,通常被认为结合了经典统计学、机器学习和计算机科学(同样,这取决于你问谁,但其他可能包括这里的商业智能,以及可能的信息可视化或知识发现;例如,维基百科关于数据科学的文章)。一个优秀的数据科学家也擅长掌握他们工作领域的特定领域特征。例如,从事医院记录分析的数据科学家如果具有生物医学信息学背景,效率会更高。
  2. 这里有很多选择,具体取决于您感兴趣的分析类型。Andrew Ng 的 coursera 课程是大多数人提到的第一个资源,这是正确的。如果您对机器学习感兴趣,那么这是一个很好的起点。如果您想深入探索所涉及的数学,Tibshirani 的 The Elements of Statistical Learning非常出色,但相当高级。除了 Ng 的课程之外,coursera 上还有许多在线课程,但您应该根据您想要关注的分析类型和/或您计划工作的领域来选择它们。
  3. 卡格尔如果您想深入研究一些现实世界的分析问题,请从 kaggle 开始。不过,根据您的专业水平,从简单的开始可能会更好。Project Euler是一次性练习题的绝佳资源,我仍然将其用作热身工作。
  4. 同样,这可能取决于您希望工作的领域。但是,如果您完成一系列与数据科学相关的课程,我知道 Coursera 会提供数据科学证书。这可能是一个很好的起点。

祝你好运!如果您还有其他具体问题,请随时在评论中问我,我会尽力提供帮助!

我是一名自学成才的数据科学家,我会尽力向您解释如何去做。


数据科学有哪些领域?(例如,人工智能、机器学习、数据分析等)

数据科学是一个非常广泛的领域。它是关于数据科学的。因此,任何使用数据做出决策的领域都属于这个领域。一些领域包括:

  • 人工智能
  • 模式识别和分析
  • 生物统计学
  • 统计学习
  • 机器学习
  • 数据美学(或数据可视化)
  • 数据新闻

有没有人可以推荐的在线课程?

我已经回答了一个类似的问题所以我在这里引用它:

Coursera 的机器学习课程开始。它在向学生介绍机器学习领域方面做得非常好,并帮助您在概念上打下坚实的基础。

万一你觉得那门课的数学有点笨,你可以选这门课,由同一位教授教授,比前者的数学密集。

现在,您将对机器学习的基本概念有了清晰的直觉。现在,学习这门课程,可以说是吴恩达课程的后续或补充。

来自 IAPR 的这个资源对交叉验证、正则化等许多 ML 概念有深入的说明。

您还可以 在 Quora 上的博客中查看这些惊人的资源列表。

现在,为了深入了解神经网络和深度学习的高级概念,您可以使用这本免费的书

最后,免费的电子书:统计学习要素是一本适合机器学习或统计学习初学者的好书。

除此之外,请查看Quora 提供的数据科学参考资料库


有没有我可以练习的项目(例如,开放数据集)。

我已经开始用印度的开放数据集做项目。但是,我建议你在这里查看这个惊人的讨论,在完成这些项目之后,你可以从 Kaggle 开始。


是否有我可以申请或完成的认证?

在我看来,没有任何数据科学认证。是的,那里有很多大数据认证,但我认为它们对初出茅庐的数据科学家并没有真正有用,所以我建议你至少在你对自己的 ML 和数据技能有足够信心之前不要追逐它们。

我建议从 Coursera 的数据科学专业开始。约翰霍普金斯大学的数据科学专业是最古老的运行专业。我不推荐书籍和 kaggle。他们只是在开始时让你感到困惑。请记住,编码是数据科学中最简单的部分,您必须学习很多。为了了解该领域,这个维恩图是一个好的开始。