Excel 是否足以用于数据科学?

数据挖掘 编程 擅长
2021-09-27 06:14:10

我正在准备使用 R 编程语言教授数据科学入门课程。我的听众是商科专业的本科生。一个典型的商科本科生没有任何计算机编程经验,但上过一些使用 Excel 的课程。

就个人而言,我对 R(或其他编程语言)非常熟悉,因为我主修计算机科学。然而,我有一种感觉,我的许多学生会对学习编程语言感到谨慎,因为这对他们来说似乎很困难。

我确实对 Excel 有一定的了解,我相信虽然 Excel 对简单的数据科学很有用,但学生有必要学习一门严肃的数据科学编程语言(例如 R 或 Python)。我如何让自己和学生相信 Excel 对于一个认真学习数据科学的商科学生来说是不够的,他们有必要学习一些编程?

根据评论编辑

以下是我将讨论的一些主题:

  • 数据处理和数据清洗
  • 如何操作数据表,例如,选择行子集(过滤器)、添加新变量(变异)、按列对行进行排序
  • 使用dplyr进行 SQL 连接
  • 如何使用ggplot2绘制图(散点图、条形图、直方图等)
  • 如何估计和解释统计模型,例如线性回归、逻辑回归、分类树和 k 最近邻

因为我对 Excel 不是很了解,所以不知道这些任务是否都可以在 Excel 中轻松完成。

4个回答

首先看看这篇文章在数据科学任务方面,Excel 不如其他解决方案有很多原因。Excel 也无法处理大型数据集(数十万条记录 - 更不用说Big Data附近的任何内容)、图像和声音数据。

Excel 适用于有关电子表格的简单任务;它更强调演示易用性,同时对实际分析数据的支持最少。除非您只想计算简单的统计量度(平均值、平均值等)或建立一个非常简单的模型(例如线性回归),否则 Excel 效率低下。话虽如此,公司必须处理的有关数据的工作 99% 都非常简单,可以通过 Excel 进行管理。

然而,数据科学主要处理 Excel 无法处理的回归、分类和复杂模型!如果您的学生想了解数据科学,您需要教他们一个对他们有用的工具(R、python 等)。这些语言还具有包含大量内置模型的库,可以“使用”。

我选择后一种选择的另一个真正重要的原因是它们是开源的。我个人认为从教育的角度来看,开源软件应该比专有解决方案更受欢迎(这也是我建议使用 python 和 R 而非 Matlab 的原因)!

我刚刚完成了商业分析硕士学位,遇到了你描述的同样的问题。幸运的是,我是一名技术人员,能够自学 R 和 Python,但我被困在教班上的其他人如何使用 R 和 Python。我上过的使用 R/Python 的课程因学生缺乏技术理解而受到阻碍,因此花费了太多时间来介绍如何打开 R/Python。走另一条路的课程令人印象深刻,而且不是很实用。我想为一个班级项目做一些事情,由于它的局限性,最终无法在 Excel 中完成,但老师不会接受任何其他工具。

这可能不是您可以立即做的事情,但我强烈建议您尝试让该部门在参加您的课程之前要求一门编程课程。恕我直言,数据科学和商业分析应该是需要大量计算机科学的跨学科学位路径,但在程序成熟和大学系统变得更好之前,它可能暂时不会发生。

我认为你需要教他们流行的数据科学语言,如 Python 或 R。Excel 不会在实际工作中帮助他们,而且对于数据科学目的也不实用。从长远来看,我可能会说 Python 对他们最有价值,并且使用 scikit-learn 之类的包,您的回归和分类可以用很少的代码行来演示,他们可以更轻松地阅读和理解。仅仅通过阅读它并不总是很容易理解 R 在做什么。

另一个忠告:不要浪费时间强迫你的学生设置一个IDE并下载必要的包,如果你使用python为他们创建一个包含所有必要包的虚拟环境,并设置一个像pycharm这样的IDE(他们可以在学生/学术许可下获得这个和大多数其他 IDE),然后可以通过 UI 而不是控制台开发和运行他们的代码,他们可能会觉得令人生畏和困惑。如果您走 R 路线,请确保为它们设置了像 RStudio 这样的 IDE,并确保所有包含和包安装都包含在您的示例代码中或完整描述。

我如何让自己和学生相信 Excel 不足以让一个认真的商科学生学习数据科学

在 R 中创建一个巨大的 data.frame(几百万行和数百列),将其保存为 .xlsx。

向他们展示用 R 和 Excel 在同一台机器上加载它的时间差。在同一数据集上比较两者之间的基本统计操作,甚至是绘图。

点号 你列表上的 2-4 也可以在 Excel 中完成,只是更痛苦,向他们展示几个例子,说明与基本 Excel 相比,过滤有多简单(和更快)dplyr,再次在一个巨大的数据集上突出显示区别。

如果你能想出一个数据集,让你的 PC 因 Excel 运行而崩溃,那就加分了。

另外,我会强调 R(或 Python)的“免费使用”部分。例如,与 SAS 相比,如果您只是想尝试一种解决方案(即某种集群),您可以加载库并尝试一下,无需支付更多费用,只需尝试即可。

对我来说,这就是它的美妙之处,您可以免费尝试任何您需要的东西,而且这通常是 DS 的关键,想象一下如果您必须为安装的每个库付费。