用于简单而强大的数据探索的软件

机器算法验证 数据可视化 软件
2022-01-23 04:38:11

在我与电子表格混乱作斗争的尝试中,我经常提倡使用更强大的工具,例如真正的统计软件(R、Stata 等)。最近,有人对我的这种观点提出质疑,他直截了当地说他们根本不会学习编程。我想为他们提供不需要编程的数据分析工具(但理想情况下,如果他们决定稍后将脚趾浸入水中,这将扩展到编程)。我可以直接推荐哪些用于数据探索的软件包?

4个回答

就探索性(可能是交互式)数据分析而言,我建议看一下:

  • Weka最初针对数据挖掘应用程序,但可用于数据摘要。
  • Mondrian,用于交互式数据可视化。
  • KNIME,它依赖于构建数据流的思想,与 Weka 和 R 兼容。

这三个都接受arffcsv格式的数据。

在我看来,Stata 不需要太多的编程专业知识。事实上,这甚至是其吸引力的一部分:大多数基本分析都可以通过点击用户操作来完成,并带有用于自定义特定参数的对话框,例如,用于线性模型中的预测。正如@gsk3 所说,当您使用Rcmdr、 Deducer 等外部 GUI 时,这同样适用于 R,尽管在较小程度上。

有些人认为编程只是输入命令行语句。到那时,也许你在鼓励他们时有点迷失了。但是,如果他们已经在使用电子表格,那么他们就必须输入公式。这些类似于命令行语句。如果他们真的意味着他们不想在逻辑和自动分析的意义上进行任何编程,那么您可以告诉他们他们仍然可以在 R 或 Stata 中进行分析,而无需任何编程。

如果他们可以在电子表格中进行统计……他们想做的所有事情……那么他们希望完成的所有统计分析都可以在不使用 R 或 Stata 的“编程”的情况下完成。他们可以在电子表格中排列和组织数据,然后将其导出为文本。然后在没有任何编程的情况下进行分析。

这就是我有时对 R 进行介绍的方式。无需编程即可进行您可以在电子表格中进行的数据分析。

如果你以这种方式让他们上钩,那么只需慢慢地把鱼卷起来……:) 几年后,赞美他们已经成为一个多么优秀的程序员。

您可能还想向您的同事展示文档,或者至少自己阅读以更好地表达您的观点。

我要在这里为 JMP 推销。为什么它是我首选的非编程数据探索工具,我有几个原因:

  1. 非常好的可视化工具。更基本的 EDA 类型图,它和 R 一样好,并且更容易用于制作接近出版就绪图的东西。它还有一些非常灵活的可视化工具,因此您可以扭曲和弯曲您的数据以获得完整的故事。
  2. 出乎意料的强大。直到我读研究生的第 4 年,我才发现 JMP 开箱即用无法做到的事情。这还不错。
  3. 可编写性。这对我来说是件大事。GUI 的主要弱点是很难复制您所做的事情。JMP 允许您编写 GUI 脚本 - 生成这些脚本非常简单。

我 95% 的工作都是用 Python 编程的,其余的则用 R 或 MATLAB 或 IDL/PV-WAVE(以及很快的 SAS)。但是,在我所处的环境中,获得结果的时间通常是选择分析的巨大驱动力,因此我也经常使用点击式工具。根据我的经验,没有单一的、健壮的、灵活的 GUI 工具可以进行分析,就像没有单一的语言一样。我通常拼凑以下免费和商业软件的集合

我没有使用过 JMP、Stata、Statistica 等,但我想使用。

使用这些工具需要学习不同的 GUI 和建模的多种抽象,这在当时很痛苦,但让我稍后获得更快的临时结果。我与 OP 在同一条船上,因为虽然与我一起工作的大多数人都非常聪明,但他们并不关心学习一门语言,也不关心多个 GUI 和特定于应用程序的术语。因此,我已经接受了 Excel 推动了商业世界中 90% 的分析。因此,我正在考虑使用pyinex 之类的东西来为我的绝大多数同事所期望的同一个 Excel 表示层提供更好的分析。

更新:继续使用 Do-modeling-with-programming-but-make-Excel-the-presentation-layer 主题,我刚刚看到这个人的网站,提供嵌入 Excel 单元格的 Tufte 样式图形。简直太棒了而且免费!