我想成为一名数据科学家。我学过应用统计学(精算学),所以我有很好的统计学背景(回归、随机过程、时间序列,仅举几例)。但现在,我打算攻读智能系统的计算机科学硕士学位。
这是我的学习计划:
- 机器学习
- 高级机器学习
- 数据挖掘
- 模糊逻辑
- 推荐系统
- 分布式数据系统
- 云计算
- 知识发现
- 商业智能
- 信息检索
- 文本挖掘
最后,凭借我所有的统计和计算机科学知识,我可以称自己为数据科学家吗?,还是我错了?
感谢您的回答。
我想成为一名数据科学家。我学过应用统计学(精算学),所以我有很好的统计学背景(回归、随机过程、时间序列,仅举几例)。但现在,我打算攻读智能系统的计算机科学硕士学位。
这是我的学习计划:
最后,凭借我所有的统计和计算机科学知识,我可以称自己为数据科学家吗?,还是我错了?
感谢您的回答。
好吧,这取决于您希望进入哪种“数据科学”。对于基本的分析和报告统计数据肯定会有所帮助,但对于机器学习和人工智能,你需要更多的技能
概率论——你必须在纯概率方面有扎实的背景,这样你就可以将任何问题,无论以前是否见过,都分解成概率原理。统计对于已经解决的问题有很大帮助,但是新的和未解决的问题需要对概率有深入的了解,以便您可以设计适当的技术。
信息论- 这(相对于统计学)是一个相当新的领域(尽管仍然有几十年的历史),最重要的工作是香农,但更重要且经常被忽视的文献是霍布森的工作,证明了 Kullback-Leibler Divergence是唯一真正抓住“信息量度”概念的数学定义。现在,人工智能的基础是能够量化信息。建议阅读“Concepts in Statistical Mechanics” - Arthur Hobson(非常昂贵的书,仅在学术图书馆有售)。
复杂性理论- 许多没有扎实的复杂性理论背景的数据科学家面临的一个大问题是他们的算法无法扩展,或者在大数据上运行需要很长时间。以 PCA 为例,很多人最喜欢回答面试问题“你如何减少我们数据集中的特征数量”,但即使你告诉候选人“数据集真的非常非常大”,他们仍然会提出各种形式的为 O(n^3) 的 PCA。如果您想脱颖而出,您希望能够自己解决每个问题,而不是在很久以前大数据如此时髦之前设计的一些教科书解决方案。为此,您需要了解运行所需的时间,不仅在理论上,而且在实践中 - 那么如何使用计算机集群来分发算法,
沟通技巧——数据科学的很大一部分是理解业务。无论是发明由数据科学驱动的产品,还是提供由数据科学驱动的业务洞察力,能够与项目和产品经理、技术团队以及您的数据科学家同事进行良好的沟通都非常重要。你可以有一个惊人的想法,比如说一个很棒的人工智能解决方案,但是如果你不能有效地 (a) 沟通为什么会赚钱,(b) 说服你的同事它会奏效,并且 (c) 向技术人员解释你的需求他们帮助构建它,然后它就不会完成。
数据科学家(对我来说)是一个很大的总称。我认为数据科学家可以熟练使用数据挖掘、机器学习、模式分类和统计领域的技术。
然而,这些术语是相互交织的:机器学习与模式分类联系在一起,并且在寻找数据模式时数据挖掘也有重叠。所有技术都有其基本的统计原理。我总是把它想象成一个有一个巨大交叉点的维恩图。
计算机科学也与所有这些领域有关。我会说您需要“数据科学”技术来进行计算机科学研究,但计算机科学知识并不一定包含在“数据科学”中。然而,编程技能——我将编程和计算机科学视为不同的职业,编程更多地是解决问题的工具——对于处理数据和进行数据分析也很重要。
你有一个非常好的学习计划,这一切都很有意义。但我不确定你是否“想”称自己只是“数据科学家”,我的印象是“数据科学家”是一个如此含糊的术语,可以表示一切,也可以什么都没有。我想传达的是,你最终会成为更“专业”的人,而不仅仅是“数据科学家”。
我认为你正朝着成为专家 数据科学家的方向走上正轨。最近我在 Data Science StackExchange 上回答了相关问题(请注意我在此处提到的定义,因为它本质上回答了您的问题,以及实践 软件工程和应用知识解决现实问题的各个方面)。我希望你会发现这一切都很有用。祝你职业生涯好运!