哪种统计软件适合教授社会科学本科统计学入门课程?

机器算法验证 软件 教学
2022-03-03 02:14:32

我正在寻找一个统计软件包,我可以在社会科学研究计划的统计入门课程中使用它。学生没有统计学的先验知识,也没有编程语言的经验。目标是向他们介绍基本的统计概念(如均值、方差、平方和、p 值……最后是线性回归),并使他们能够使用示例数据集自行进行基本分析。该课程应该是通过统计而不是记忆公式来学习概念(尽管我认为公式很重要)。

因此,我正在寻找一种替代通常的语法(如普通 R)或点击式(如 SPSS 或 Rcmdr)驱动的软件。该软件应该易于学习,并且应该具有清晰的图形用户界面,可以可视化数据集并提供标准图形和表格。如果它将分析的所有不同步骤可视化(例如读取和操作数据、计算描述性度量、制作描述性表格和图表、计算推理度量、绘制推理图、导出到报告),则最好。

您对适合学习和首次练习统计的(开源或免费)统计软件有什么建议吗?

编辑
感谢您的建议。我研究了gretl,以及我在自己的在线查询中发现的另外两个程序:RapidMinerStatistical Lab。[1]
我发现它gretl的界面和输出比 Rcmdr、SPSS 或 Stata 更清晰、更集中。因此,从我的角度来看,它是开始教授统计学的合格工具。
然而,流程图 GUI 的RapidMinerStatistical Lab给我留下了深刻的印象,因为他们可视化了统计分析的单个步骤(从加载数据开始)。我认为这可能对许多在通常专注于数学解释方面苦苦挣扎的学生有所帮助。当然,在我看来,RapidMiner 对于初学者来说功能、菜单和按钮太多了,而 Statistical Lab 则更加专注。Statistical Lab 的最大优点是类似于控制台的“R-Calculator”,带有“R-code Wizard”,它有助于生成真正的 R 语法,因为 Statistical Lab 依赖R于其计算。
最后,我决定在第一学期从Statistical Lab开始,同时介绍基本概念,并在第二学期切换到RStudio(和 Rcmdr)。

[1]:在我看来,Gnumeric、SciPy、Scilab、GNU Octave 等似乎不太针对社会科学。

4个回答

也许格雷特? http://gretl.sourceforge.net/

它是免费的,在我们的大学用于本科统计。

我会避免使用大多数“著名”的东西,MatLabMapleMathematicaJMPSASMinitab,因为当你的学生毕业时,他们必须每年支付数千美元才能专业地使用它。每家公司往往都有自己特别喜欢的工具,如果你教他们一种他们公司不会支付费用的工具,那么他们的技能就被浪费了。我也不喜欢专有库——它们训练用户按下按钮,如果用户想去其他地方(JMP 或其他),就没有学习的结转。

包含SciPy/NumPy的Python非常好。它是开源的并且得到很好的支持。它有一个可学习/简单的语法。它仍然被解释,所以它不会很快尖叫,但如果他们不知道任何脚本或电子表格,那么它比他们需要的要快得多。 PythonXY是很好的版本,有很好的库和支持。我也喜欢通过它可以进行 GUI 编程。在 Windows 中构建独立的应用程序有点挑战,但可能远高于学生的水平。(编辑)SageCython大幅提升 Python 的价值主张。界面和可用性得到了显着改善。一个编译代码比一个很好的解释代码快 1000 倍,这对我来说听起来很棒(或惊人)。编辑:我在使用Anaconda(又名 conda)发行版时获得了一些乐趣,而且它们使用起来也非常简单。

我不是Perl的忠实粉丝它有点过时了。它是关于解析和处理文本而不是数学/科学。不要误会我的意思,它可以做数学/科学,但是如果你知道 VBA,那么 MSWord 可以做数学/科学。能够做到与将特定工作作为您的主要关注点不同。

我喜欢R,即使你不喜欢,因为它是由合格的数学/统计博士积极开发的。这意味着即使语法可能很笨拙,它也将拥有最新的库,并且被证明没有错误。(一般来说)

Excel不是一个糟糕的开始。一旦您知道了一个电子表格,它就会使使用其他任何电子表格变得更加容易。在商业环境中,几乎每家公司都有MicroSloth办公室,所以 Excel 不是一个坏主意。我不喜欢他们的脚本,但这只是偏好,我仍然可以使用它。与其他一些软件的 5000 美元相比,它的成本约为 150 美元,因此对于普通人来说,它的入门成本更合理。

JMP 脚本语言是陌生的。它不会转换为其他(非 SAS)软件。远离它。该语言唯一可赎回的功能是它可以(在某种有限的意义上)运行“R”代码。如果您在“R”中编码,只需使用“R”和“RStudio”。

我没有使用过MathCAD,所以我无法谈论它的相关性。我认为它更具象征意义,而不是导入外部数据。到目前为止,它更便宜。它不是免费和开放的。它的设施不会翻译成另一种语言的设施。编辑)同样属于这一类的是EES,在非常狭窄的使用窗口之外,我同样对它没有印象。

编辑: LabVIEW给我留下了深刻的印象使用起来很简单,几个小时就可以让某人有能力。它运行得非常快,就像字面上完全相同(MathScript)代码的速度比 MatLab 快 1000 倍。如果您有一些繁重的工作,则值得考虑一下。它确实要花钱,但大约是传统大铁的 1/5。

祝你好运

编辑:我不会使用 Statistical LABoratory,因为即使您选择“英语”作为语言,它也会以德语出现,并且不会在 Windows 7 上卸载。这两个管理弱点都使我无法使用它。我无法操作它,当我试图删除它时失败了。

通过反复试验,我发现了菜单设置以使其以英文显示。它似乎是一些 R 库中用于数据处理和显示的相对简单(因此有用且一致)的接口。我将不得不对此进行更多研究,所以在这一点上,“陪审团仍然没有定论”。

编辑更多:

->这里<-是一个有趣的链接,指向关于工具和工作台的其他讨论。

您可以使用R而不会太复杂

在社会科学中使用数据分析的学术工作有时会R以 . 这种语言是免费的,并且在行业中被广泛使用,因此有助于学生尽早开始学习它。我的观点是,最好让学生尽早接触他们将使用的语言,而不是让他们少量接触适应性较差的语言。虽然这在您自己的课程中可能需要付出一些努力,但这对学位课程中的后期讲师会有所帮助,他们可以假设在以后的课程中对语言有一定的了解。

现在,做一门课程的主要挑战R是从长远来看有很多东西要学,而且你想要做一个简单的演示,避免教太多的初始结构和语法。对于入门课程,您应该在覆盖范围方面设定狭窄且可行的目标,并涵盖在课程中实施数据分析所需的最少数量的统计编程主题。为了简化您的教学,您可以通过自己执行一些初步步骤,为学生提供分析的简化版本。例如,在入门课程中,您可以使用以下简化:


要删除的内容(以及如何删除它)

  • 删除对包的考虑:对于入门课程,最好使用基本程序,它包含足够的功能来处理数据框并应用介绍性统计测试和模型。我建议在介绍性课程中避免使用扩展包,但如果您特别想使用一些额外的包,您应该在相关练习中提供自己安装和加载这些包的代码。学生应该能够复制或运行您现有的代码来安装和使用他们想要使用的任何包。package::function为了避免函数名称冲突的困难(以防学生加载其他包并产生问题),您可以使用语法直接引用非基本函数。

  • 删除数据导入步骤:这可以通过确保您提供给学生的所有数据集都已经在.rds表格中来完成,您甚至可以通过为他们提供导入数据文件所需的第一行代码来开始您的学生课程网站或本地目录。我建议给你的学生一些关于数据导入的笔记或资源,以使那些希望学习这一点的学生受益,但在课程中使导入步骤不可评估,并在每个练习中为学生提供导入代码。

  • 删除数据整理(除非您特别想教这一点):这可以通过在不同.rds文件中为学生提供预先整理好的数据表格来完成。例如,您可能有一个宽格式 ( CancerDataWide.rds) 的数据集和长格式 ( ) 的相同数据CancerDataLong.rds作为单独的文件。如果您特别想在课程中教授数据整理,您可以为此提供一些注释并分配一些时间,但如果您愿意,也可以通过提供预先整理的数据来删除这部分。数据争论是一门很长的学科,所以如果你想教授这个,你需要花一些时间。


包括什么

  • 教学生数学和逻辑运算符的基础知识:花点时间教基本的数学运算和逻辑运算。学生应该能够使用数学运算来操作值,并且他们应该能够进行逻辑查询等。这将有助于学生在他们想要从其他值计算一个值或当他们想要执行一个逻辑查询时(例如,子集目的)。

  • 教学生向量、数据框、列表和子集的基础知识:您提供的数据应该以对象的.rds形式呈现data.frame,因此您应该教给学生以对象形式查看数据的基础知识。教他们函数Viewstrhead教他们一些基本的子集语法,以便他们可以提取与某些逻辑查询匹配的单个变量或行等。一旦学生可以处理这个问题,您就可以继续教他们一些从列表中子集的基础知识,所以他们可以从列表对象中提取信息。所有这些都相当简单,可能在一个会话中就可以涵盖,并在后续教程工作中提供一些帮助和提醒。在大多数入门课程中,您可以避免使用矩阵和数组。

  • 将您的统计分析限制在几个关键模型/测试中:对于入门课程,您很可能会涵盖一些基本的数据分析方法,包括查看相关性、T 检验、引入回归和 ANOVA。您可能还会教一些基本的图形方法,包括散点图、条形图、直方图(最好是 KDE)等。所有这些都可以通过基础程序中的函数来实现,并在初始数据帧上进行相关查询。你需要教你的学生这些东西的各种功能,但它们都相当简单,而且大部分工作在功能中是自动化的。

您可以尝试使用 Gnumeric,这是一个备受推崇的电子表格,还有一个 Open Office 电子表格。如果您解释了使用电子表格(尤其是 Excel)的陷阱,那么他们在大学毕业后在随后的实际生活中可能没有 SPSS 之类的奢侈品,但仍然可以从这些对数学和编程技能要求不高的免费产品中获得有用的服务. 许多办公环境默认包含 Excel。

看一下:

http://groups.google.com/group/sci.stat.math/browse_thread/thread/26fe9a9a0d91139d# - 统计和 Excel 2007

并搜索类似的参考资料,例如

http://groups.google.com/group/comp.soft-sys.stat.spss/browse_frm/thread/3940bcd6c6266f1b/d85edd4978e53568?hl=en#d85edd4978e53568 Keeling, Kellie B. & Pavur, Robert J. (2007)。九个统计软件包可靠性的比较研究。计算统计与数据分析,51,3811–3831。