保留对图表的评论以进行探索性数据分析

机器算法验证 数据可视化 探索性数据分析 项目管理
2022-03-04 17:40:17

在进行探索性数据分析时,我经常会打印出图表并写出评论/注释等。

人们对更好的电子方法有什么建议吗?我对python/R特别感兴趣。

我正在寻找一些“快速(且肮脏)”的东西,它不会减慢探索性工作,但有助于记录我的见解。

我能想象的是生成 PDF 格式的图表,然后添加评论。

理想情况下,我希望选择以编程方式执行此操作,这样如果我重做图表,我可以“自动”重新添加评论。

4个回答

这是许多人发现有用的简单解决方案。如果你觉得它微不足道,我不会反对。这跨越了统计软件、操作系统和其他计算细节。

只需将您的图表复制并粘贴到您最喜欢的文字或文本处理器中,然后添加您自己的评论。这可能意味着 MS Word、支持 TeX、LaTeX 等的软件。

就是这样。显然,优点是简单(没有什么新东西要学习)和灵活性(以你想要的方式添加你想要的东西)。

这不是一个自动化的解决方案。但即使是自动化解决方案也依赖于图表信息和您的评论,那么有什么不同呢?

I highly recommend Jupyter Notebook, which lets you create documents that contain interspersed code blocks, plots, and notes/documentation. The document can include markdown and latex, which is automatically rendered (much like writing on CrossValidated). When you run a code block, any text output and plots that it generates are added inline to the document. You can change a code block and re-run to update the output/plots. This is nice for testing things interactively (e.g. tweaking code/parameters to see what happens). I think it's easier than having to export figures and and paste them into a traditional, static document, especially if you change anything. You can export a notebook to PDF, etc. to get a static copy.

它是开源的,适用于 Python、R 和其他语言。该界面是基于浏览器的,因此它是跨平台的并且易于共享笔记本。您可以在自己的机器上运行后端,也可以在网站上托管笔记本,以便您/其他人可以从任何地方编辑/查看/运行它们(代码将在服务器上运行)。显然有一种方法可以将笔记本配置为计算集群的前端以进行并行计算。

R notebooks我倾向于在 RStudio中进行越来越多的分析。这样,我可以将代码、注释和图表放在一个地方,而不必一直生成 pdf 文件——这可以节省大量时间。您在编辑器中编写文本和代码,然后通过单击按钮,代码在原地执行(并绘制图形)。因此,文本、代码和情节整齐地结合在一起。通过一些鼠标点击也很容易转换成 HTML 或 PDF。我不知道这对 Python 的效果如何,因为我主要使用 R。

听起来您想要某种文学编程R提供与LaTeX接口的SweaveKnitr对于不同类型的输出格式,还有其他选项,例如用于可编辑文档(如 Word 文档)的 ODFweave,以及可以输出多种类型(如 HTML 之外)的RMarkdown 。其他统计软件通常具有类似的功能。

(使用这些有一些前期工作。我通常做一次性项目,而不是需要定期和类似报告的长期项目,所以我通常使用@NickCox 的转储或复制到文件的方法并围绕它写评论。)