数据科学家使用 Excel 吗?

数据挖掘 工具 职业 擅长
2021-09-15 20:52:48

我认为自己是一名熟练的数据科学家。像大多数人一样(我认为),我在高中和大学期间使用 Excel 制作了我的第一个图表并进行了第一次聚合。随着我上大学、读研究生和大约 7 年的工作经验,我很快学会了我认为更高级的工具,比如 SQL、R、Python、Hadoop、LaTeX 等。

我们正在面试一个数据科学家职位,一位候选人标榜自己是一名拥有 15 年以上经验的“高级数据科学家”(如今这是一个非常流行的术语)。当被问及他最喜欢的工具集是什么时,他回答说是 Excel。

我将此作为证据,证明他不像他的简历所声称的那样经验丰富,但不确定。毕竟,仅仅因为它不是我喜欢的工具,并不意味着它不是其他人的。有经验的数据科学家会使用 Excel 吗?你能假设主要使用 Excel 的人缺乏经验吗?

4个回答

大多数非技术人员经常使用 Excel 作为数据库的替代品。我认为这是错误的,但可以容忍。但是,据说在数据分析方面有经验的人根本无法将 Excel 作为他的主要工具(不包括第一次查看数据的明显任务)。那是因为 Excel 从来没有打算用于这种分析,因此,在 Excel 中犯错误非常容易(这并不是说在使用其他工具时犯另一种错误并不容易,而是Excel 使情况更加恶化。)

总结一下 Excel 所没有的并且是任何分析都必须的:

  1. 再现性。数据分析需要具有可重复性。
  2. 版本控制。有利于协作,也有利于可重复性。不使用 xls,而是使用 csv(仍然非常复杂并且有很多边缘情况,但现在 csv 解析器相当不错。)
  3. 测试。如果你没有测试,你的代码就坏了。如果您的代码被破坏,您的分析将比无用更糟糕。
  4. 可维护性。
  5. 准确性。Excel 中确实缺乏数值准确性、准确的日期解析等。

更多资源:

欧洲电子表格风险利益集团 - 恐怖故事

您不应该将电子表格用于重要工作(我是认真的)

微软的 Excel 可能是地球上最危险的软件

通过这个奇怪的技巧使用 Excel 销毁您的数据!

Excel 电子表格很难正确处理

有经验的数据科学家会使用 Excel 吗?

我见过一些经验丰富的数据科学家,他们使用 Excel——要么是因为他们的偏好,要么是因为他们工作场所的业务和 IT 环境的特殊性(例如,许多金融机构至少使用 Excel 作为他们的主要工具来建模)。但是,我认为大多数有经验的数据科学家都认识到需要使用最适合特定任务的工具,并坚持这种方法。

你能假设主要使用 Excel 的人缺乏经验吗?

你不能。这是我上述想法的推论。数据科学并不自动意味着大数据 - Excel 可以很好地处理大量数据科学工作。话虽如此,如果数据科学家(甚至是经验丰富的数据科学家)不具备现代数据科学工具(包括以大数据为中心的工具)的知识(至少是基本的),那就有点令人不安了。这是因为实验已经深深植根于数据科学的本质,因为探索性数据分析是必不可少的,甚至是其中的关键部分。因此,一个没有探索其领域内其他工具的冲动的人,可能在整体适合数据科学职位的候选人中排名较低(当然,这很模糊,因为有些人学得很快新材料,加上,

因此,总而言之,我认为经验丰富的数据科学家可能对他们首选工具的问题的最佳答案如下:我首选的工具是最佳工具,即最适合手头任务的工具。

我认为大多数人在没有很好的excel知识的情况下回答。Excel(自 2010 年以来)有一个内存列 [multi table] 数据库,称为 power pivot(允许从 csv/数据库等输入),允许它存储数百万行(不必加载到电子表格中) . 它还有一个名为 power query 的 ETL 工具,允许您从各种来源(包括 hadoop)读取数据。它有一个可视化工具(功率视图和功率图)。很多数据科学都在做聚合和 top-n 分析,其中 power pivot 擅长。再加上这些工具的交互性——任何用户都可以轻松地拖放一个维度来分解结果,我希望你能看到好处。所以是的,你不能做机器学习,

在他的著作 Data Smart 中,John Foreman 使用 Excel 解决了常见的数据科学问题(聚类、朴素贝叶斯、集成方法……)。确实,了解一些 Python 或 R 知识总是好的,但我想 Excel 仍然可以完成大部分工作!