Python 的 pandas/matplotlib/seaborn 带来了什么 Tableau 没有带来的东西?

数据挖掘 Python 熊猫 matplotlib 画面
2021-09-30 03:05:34

我花了一年时间学习 Python。作为一个认为对于 CS/IT 领域之外的人来说不可能学习编码的人,我显然被几行 Python 代码的强大功能惊呆了!

总体上达到了中级水平,我为自己感到非常自豪,因为与 Excel 相比,它极大地扩展了我在数据分析和可视化方面的可能性(除了 Python 的数百万其他用途)。

纯粹在数据分析和可视化方面:

与使用Tableau相比,使用相同的数据集会带来什么?pandas/matplotlib/seaborn/numpy

(旁注:看到我所有来之不易的 Python 数据整理技能都可以在这样一个用户友好的 GUI 中使用,我感到非常失望...... :'( )

3个回答

别担心——你来之不易的 Python 技能仍然很重要;)

Tableau 不是替代品 - 它本质上是一种分享您的见解/发现的方式。它是您的常规工具包(Pandas、Scikit-Learn、Keras 等)的包装器。它可以进行一些基本分析(仅使用sklearn 中的基本模型),但强大的是它可以部署您的模型以允许人们对存储的数据/新数据进行推理,然后在交互式仪表板中使用它。

观看此视频,全面了解它可以做的所有事情,以及它如何连接到 Python(和 R/MatLab)。您的普通 Python 代码周围只有一些样板代码。

Tableau 还提供 TabPy 来设置服务器,从而可以很好地部署您的工作,但最终您需要他们的桌面应用程序来查看结果(即您的客户需要它来查看结果)。这不是免费的:https ://www.tableau.com/pricing/individual

总而言之,我想说 Tableau 更像是一个商业智能工具,它允许您的非数据科学家老板或其他利益相关者以交互方式探索数据和建模结果。类似于微软的 PowerBI

有官方答案和现实答案(从商业角度来看):

官方的

正式地说,你的 Python 技能会给你带来的最大好处是灵活性。如果您要运行一些经济模型,以显示梯度不确定性或其他疯狂的东西,那么在任何数据可视化/商业智能软件中手动执行都会很痛苦。或者甚至更简单的东西,比如半复杂的聚合,与它们在 BI 软件中迅速变得混乱相比,在几行 Python 中通常更容易完成。

实际的

商业智能软件——我将在这个答案中包含 Tableau——可以处理很多现实生活中的数据分析和数据可视化步骤。与代码相比,它们并不是特别灵活,但每天它们已经足够好了。一般来说——给定一个典型的商业环境——我什至会很容易地向大多数用户推荐它们。最大的限制因素是商业数据科学家的最大工作是收集数据,最重要的是清理数据,这归结为体力劳动......或编码。所有 BI 软件都试图帮助自动提取数据并在较小范围内帮助清理数据,但真正的工作通常归结为“连接到这些数据库、清理数据、

就是这样,Google Data Studio 无疑是所有不同流行的 BI 解决方案中能力最差的,但它已成为我的首选解决方案,因为一旦我以正确的方式准备数据,我就可以将其提供给任何探索数据,它有最简单/最好的用户体验。是的,任何复杂的统计数据都会在它进入任何 BI 软件之前很久就会发生(在 Tableau 和 Microsoft PowerBI 中,您也可以直接在产品内部运行 Python……我个人不推荐它,因为它 1)只会变得混乱和 2) 将其从源代码控制中拉出来),但这些发生的频率比人们预期的要少。

结论

如果您从事商业智能业务,那么我会全心全意地建议您尽可能多地使用商业智能软件。所以我的经验是你有:

  • 你真正的工作是数据仓库方面(提取你的数据,转换(清理它)和加载(将它存储在你可以从你的 BI 软件和 Jupyter 访问的地方))
  • 您的最终用户将看到什么用于标准可视化的 BI 软件
  • 你想要它是什么用于专业分析的偶尔的 Jupyter 笔记本

当然,您的经历可能完全不同,但这是我为一家帮助公司进行数据驱动业务管理的公司工作了几年的个人经历(因此我看到了它是如何在一大堆公司)。是的,一家公司通常会使用 Excel + Power Query。

PS。Tableau 试图成为这种一体化解决方案。就我个人而言,我对他们的体验并不乐观,但无论价值如何,他们都是市场上最古老、最传统的球员。

作为 Tableau 竞争对手的工作人员,数据科学技能在很大程度上取代了 Bi Software 对数据处理、复杂分析和临时报告的需求。

但是,如果您需要将您的结果部署给很多人,并且通常具有不同的查看权限(例如,您只能看到您的性能统计数据,而不是 alice 的统计数据),BI 软件仍然是有益的。为此,Tableau 的图形功能和底层安全模型需要在 Python 中重新创建。

这也适用于您需要定期更新报告并且收视率需要漂亮报告的许多用例。

另一方面,数据处理、etl 和最重要的复杂分析管道并不是 BI Software 的强项,它们在 Python 中做得更好。此外,如果您提供的 API 是用于程序化消费的,Bi Software 通常会很吃力。