最近从统计学博士课程毕业后,我在过去几个月开始寻找统计学领域的工作。我考虑过的几乎每家公司都有一个职位名称为“数据科学家”的职位。事实上,感觉看到Statistical Scientist或Statistician职称的日子已经一去不复返了。作为一名数据科学家真的取代了作为一名统计学家的身份,或者我想知道的头衔是同义词吗?
好吧,大多数工作资格都感觉像是统计学家头衔下的资格。大多数工作都需要统计学博士学位(),最需要理解实验设计(),线性回归和方差分析(),广义线性模型()和其他多元方法,如 PCA() ,以及统计计算环境中的知识,例如 R 或 SAS ( )。听起来数据科学家实际上只是统计学家的代号。
然而,我参加的每一次面试都是从一个问题开始的:“那么你熟悉机器学习算法吗?” 很多时候,我发现自己不得不尝试回答有关大数据、高性能计算以及神经网络、CART、支持向量机、增强树、无监督模型等主题的问题。当然,我说服自己这些都是统计问题的核心,但在每次采访结束时,我都情不自禁地感到我对数据科学家的了解越来越少。
我是统计学家,但我是数据科学家吗?我致力于科学问题,所以我必须成为一名科学家!我也处理数据,所以我必须是一名数据科学家!根据维基百科,大多数学者都会同意我的观点(https://en.wikipedia.org/wiki/Data_science等)
尽管“数据科学”一词在商业环境中的使用呈爆炸式增长,但许多学者和记者认为数据科学和统计学之间没有区别。
但是,如果我要为数据科学家职位进行所有这些工作面试,为什么感觉他们从来没有问过我统计问题?
在我上次采访之后,我确实希望任何优秀的科学家都能做到,我寻找数据来解决这个问题(嘿,我毕竟是一名数据科学家)。然而,经过无数次谷歌搜索之后,我终于找到了我开始感觉好像我又一次在为数据科学家的定义而苦苦挣扎的地方。我不知道数据科学家到底是什么,因为它有很多定义,(http://blog.udacity.com/2014/11/data-science-job-skills.html,http://www -01.ibm.com/software/data/infosphere/data-scientist/)但似乎每个人都在告诉我我想成为其中之一:
- https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/
- http://mashable.com/2014/12/25/data-scientist/#jjgsyhcERZqL
- 等等......名单还在继续。
归根结底,我发现“什么是数据科学家”是一个很难回答的问题。哎呀,他们在 Amstat 花了整整两个月的时间来试图回答这个问题:
- http://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/
- http://magazine.amstat.org/blog/2015/11/01/statnews2015/
好吧,就目前而言,我必须成为一名性感的统计学家才能成为一名数据科学家,但希望经过交叉验证的社区能够提供一些启示并帮助我理解成为一名数据科学家意味着什么。统计学家不都是数据科学家吗?
(编辑/更新)
我想这可能会增加谈话的趣味性。我刚收到一封来自美国统计协会的电子邮件,内容是关于在微软寻找数据科学家的工作。这是链接:数据科学家职位。我认为这很有趣,因为该职位的作用涉及我们一直在谈论的许多特定特征,但我认为其中很多都需要非常严格的统计背景,并且与下面发布的许多答案相矛盾。如果链接失效,以下是微软在数据科学家身上寻求的品质:
核心工作要求和技能:
使用分析的业务领域体验
- 必须具有跨多个相关业务领域的经验,能够利用批判性思维技能来概念化复杂的业务问题及其解决方案,并在大规模现实世界业务数据集中使用高级分析
- 候选人必须能够独立运行分析项目并帮助我们的内部客户了解调查结果并将其转化为行动以使他们的业务受益。
预测建模
- 跨行业的预测建模经验
- 与客户进行业务问题定义和概念建模,以引出重要关系并定义系统范围
统计学/计量经济学
- 连续和分类数据的探索性数据分析
- 根据需要对企业和消费者行为、生产成本、要素需求、离散选择和其他技术关系的结构模型方程进行规范和估计
- 用于分析连续和分类数据的高级统计技术
- 预测模型的时间序列分析与实现
- 处理多变量问题的知识和经验
- 评估模型正确性和进行诊断测试的能力
- 解释统计数据或经济模型的能力
- 在构建离散事件仿真和动态仿真模型方面的知识和经验
数据管理
- 熟悉使用 T-SQL 和分析进行数据转换以及将探索性数据分析技术应用于非常大的真实世界数据集
- 注意数据完整性,包括数据冗余、数据准确性、异常或极值、数据交互和缺失值。
沟通与协作技巧
- 独立工作并能够与虚拟项目团队合作,研究创新解决方案以解决具有挑战性的业务问题
- 与合作伙伴合作,运用批判性思维技能,并推动端到端的分析项目
- 出色的口头和书面沟通技巧
- 分析结果的可视化形式可供不同的利益相关者使用
软件包
- 高级统计/计量经济学软件包:Python、R、JMP、SAS、Eviews、SAS Enterprise Miner
- 数据探索、可视化和管理:T-SQL、Excel、PowerBI 和等效工具
资格:
- 要求至少5年以上相关经验
- 定量领域的研究生学位是可取的。