数据工程师和数据科学家之间的区别

数据挖掘 职业 定义
2021-09-26 03:27:56

我对数据工程师和数据科学家这个词很困惑。在当前市场上,这两个角色都有很多工作,技术技能要求几乎相同。它们是相同的还是不同的?对于具有编码背景(C++、Java、Python)以及 RDBMS 知识的人,推荐哪个角色?

2个回答

数据工程是基础设施工作;维护从摄取到输出的“大数据”管道。今天,您可能需要了解 SQL、Hadoop、Spark、Docker 和 AWS 等知识。

数据科学是一个总称,因此它可以表示很多东西,包括数据工程。但这也可能意味着没有任何生产工作的纯数据分析。这真的取决于谁在使用这个词。阅读职位描述并询问公司详情。

实际上,这两个角色都推荐给具有编码背景的人。它更多地取决于公司中每个角色的具体特征。

数据工程更多的是关于基础设施工作,这意味着解析数据文件,将数据存储在特定数据库(SQL 或 NoSQL,例如 Mongo-DB)中,设计数据库或设计数据处理的管道。

数据科学更多地是关于构建模型、选择适当的变量、对统计模型进行探索或验证、假设检验等。所有这些都需要对 Python、Matlab 和 R 等至少一种脚本编程语言有很好的了解。在某些情况下,还有需要软件工程师技能来实施与预测分析或机器学习(或统计学习)相关的应用程序。