你们中的一些人是否使用 Google Docs 电子表格进行统计工作并与他人共享?

机器算法验证 软件 计算统计
2022-02-07 00:38:20

我知道你们中的大多数人可能觉得 Google Docs 仍然是一个原始工具。它不是 Matlab 或 R,甚至不是 Excel。然而,我对这个基于网络的软件的强大功能感到困惑,它只使用浏览器的操作能力(并且与许多工作方式截然不同的浏览器兼容)。

活跃于这个论坛的 Mike Lawrence 使用 Google Docs 与我们分享了一个电子表格,用它做了一些漂亮的事情。我个人已经复制了一个非常彻底的假设检验框架(包括许多参数和非参数检验),最初是在 Google Docs 中的 Excel 中完成的。

如果你们中的任何人尝试过 Google Docs 并在有趣的应用程序中将其推向极限,我很感兴趣。我也有兴趣了解您在使用 Google Docs 时遇到的错误或缺陷

我将这个问题指定为“用于社区 wiki”,表示对此没有最佳答案。这更像是一项调查。

3个回答

作为 R、bash、Python、asciidoc、(La)TeX、开源软件或任何 un*x 工具的狂热用户,我无法提供客观的答案。此外,由于我经常反对使用 MS Excel 或任何类型的电子表格(好吧,你看到了你的数据,或者它的一部分,但还有什么?),我不会积极参与辩论。我不是唯一一个,例如

我的一位同事因为缺乏向后兼容性等原因失去了所有宏。另一位同事试图导入遗传学数据(大约 700 名受试者在 800,000 个标记上进行基因分型,120 个月),只是​​为了“查看它们”。Excel 失败了,记事本也放弃了……我可以用 vi “查看它们”,并使用一些 sed/awk 或 perl 脚本快速重新格式化数据。所以我认为在讨论电子表格的有用性时需要考虑不同的层次。要么您处理小型数据集,并且只想应用基本的统计资料,也许没问题。然后,由您来信任结果,或者您可以随时索取源代码,但使用NIST 基准对所有内联过程进行快速测试可能会更简单. 我认为它不符合进行统计的好方法,因为这不是真正的统计软件(恕我直言),尽管作为上述列表的更新,较新版本的 MS Excel 似乎已经证明其准确性有所提高统计分析,参见 Keeling 和 Pavur,九个统计软件包可靠性的比较研究( CSDA 2007 51: 3811)。

尽管如此,大约有 10 或 20 篇论文(生物医学、心理学、精神病学)包含用 Excel 制作的图形,有时没有删除灰色背景、水平黑线或自动图例(Andrew Gelman 和 Hadley Wickham 肯定和我看到它时)。但更普遍地说,根据最近对 FlowingData 的一项民意调查,它往往是最常用的“软件” ,这让我想起了 Brian Ripley 的旧谈话(他是 MASS R 包的合著者,并写了一本关于模式识别的优秀书籍,除其他外):

我们不要自欺欺人:最广泛使用的统计软件是 Excel(B. Ripley,来自 Jan De Leeuw),http://www.stats.ox.ac.uk/~ripley/RSS2002.pdf

现在,如果您觉得它为您提供了一种快速、简单的方式来完成您的统计,为什么不呢?问题是在这样的环境中仍然有一些事情无法完成(或者至少,这是相当棘手的)。我想到了引导、排列、多元探索性数据分析,仅举几例。除非你非常精通 VBA(它既不是脚本也不是编程语言),我倾向于认为即使是对数据的微小操作也可以在 R(或 Matlab 或 Python)下更好地处理,前提是你获得了正确的处理工具例如所谓的data.frame)。最重要的是,我认为 Excel 并没有为数据分析师促进非常好的实践(但它也适用于任何“高潮”,请参阅 Medstats 上关于需要维护数据处理记录的讨论,记录分析和数据编辑),我发现这篇关于实用统计的帖子相对说明了一些 Excel 陷阱。不过,它适用于 Excel,我不知道它如何转换为 GDocs。

关于分享你的工作,我倾向于认为Github(或源代码的Gist )或Dropbox(尽管 EULA 可能会阻止某些人)是非常好的选择(修订历史、必要时的授权管理等)。我不鼓励使用基本上以二进制格式存储数据的软件。我知道它可以在 R、Matlab、Stata、SPSS 中导入,但在我看来:

  • 数据应明确为文本格式,可由其他统计软件读取;
  • 分析应该是可重现的,这意味着您应该为您的分析提供一个完整的脚本,并且它应该随时在另一个操作系统上运行(我们接近这里附近的理想情况......);
  • 您自己的统计软件应该实现公认的算法,并且应该有一种简单的方法来更新它以反映统计建模中当前的最佳实践;
  • 您选择的共享系统应该包括版本控制和协作设施。

就是这样。

我对谷歌电子表格的主要用途是使用谷歌表单,用于收集数据,然后轻松将其导入 R。这是我半年前写的一篇关于它的帖子:

谷歌电子表格 + 谷歌表单 + R = 轻松收集和导入数据进行分析

此外,如果您喜欢协作,我选择的工具是 DropBox。几个月前我写了一篇关于它的帖子:

使用 DropBox 在计算机之间同步文件

我现在在一个有 5 个共同作者的项目中使用了大约半年,它非常宝贵(同步来自 3 个贡献者的数据文件,每个人都可以看到我正在制作的输出的最新版本,每个人都在寻找在文章的同一个 .docx 文件中)。

两个帖子都提供视频教程和口头说明。

“我也有兴趣了解您在使用 Google Docs 时遇到的错误或缺陷。”

我将仅回答原始问题的那一部分。我对 Google Docs 电子表格 (GSheets) 的探索一直关注数学和统计函数。最后,我的评估是,2012 年的 Google 电子表格在这方面远逊于 1997 年受到诟病的 Excel。

见证:Google Sheets 显然使用 erfc(x)=1-erf(x) 来评估 erfc(x) 用于 erf(x) 接近 1 的参数。他们通过平方的平均值减去平方来评估标准偏差或方差平均值;这是不好的数值练习。组合函数和离散概率,例如 poisson(n,x) = pow(x,n)*exp(-x)/n!逐个因素评估,导致不必要的溢出。阶乘是使用斯特林的近似因子逐个评估的,导致进一步不必要的溢出。通过简单地进行有限求和来评估累积泊松分布,因此归一化特性在舍入中丢失;累积二项分布也是如此。累积正态分布完全搞砸了;它超出 [0,1] 范围。相对于其他包中相同功能的实现,准确性普遍下降。对四舍五入等初等函数的描述常常是乱码,难以理解;解释是一个猜谜游戏。

我在 Google 文档产品论坛上的两组帖子中记录了这些问题:

(2011-11-13 及以后)normdist 仍然抛出负值 https://productforums.google.com/d/topic/docs/XfBPtoKJ1Ws/

(2012-05-06 及更高版本)GSheets 中的统计和数学函数出现错误和其他问题 https://productforums.google.com/d/topic/docs/rxFCHYeMhrU/