vs (vs.):如何在数据分析中正确使用这个词

机器算法验证 术语 描述性统计
2022-04-11 00:04:46

这个问题可能更多的是关于英语而不是统计,但我还是决定在这里问它。

当我们比较两组样本时,比方说Treatment 与 Control,我们不仅计算 p 值,还计算效果大小(或倍数变化),我们想知道基线是什么。在治疗控制的情况下,这是非常明显的。因此,我们了解到,如果倍数变化为正,则平均而言,治疗组中的值大于对照组中的值。但是,如果有人写“A 组 vs. B 组”呢?我们能否仅根据语句中组的顺序来假设基线是什么:*vs*(B 组)的右侧或左侧(A 组)?

另一个例子:我测量了一个样本的两个变量XY,并将它们绘制在散点图上,每个观察一个点,变量Xx轴上,变量Yy轴上。如何正确描述情节:“ Y vs. X ”或“ X vs. Y ”,或者两个陈述相同?

我没有为这个问题找到一个好的标签,并试图创建一个“统计语言”标签,但没有足够的声誉。如果您认为这会很好并且您可以提供帮助,请这样做。

3个回答

关于绘图:对于散点图、折线图等,我认为我将Y 与 X 作图并且在每种情况下总是先提及响应,然后再提及另一个变量,这是很自然和传统的说法。因此,我(说我)绘制温度与时间的关系图,以及小麦产量与降雨量的关系图。

为什么是自然的?每当您断言存在这种关系时,想法是(在给出的示例中)温度取决于时间,或者是时间的函数,而不是反之亦然小麦产量取决于降雨量,或者是降雨量的函数,而不是相反(涉及反馈循环的关系可能是这一原则的一个例外,但不会破坏它。)

因此,这种区别与一个强有力的约定有关,即响应(结果、结果、效果、因变量)绘制在垂直或是的轴和水平上的其他变量或X轴。它还与数学讨论中使用诸如是的是一个函数X,首先提到结果的地方。

然而,不可否认,我们在这里至少部分地谈论约定,而不是可以识别出不可避免的逻辑的问题。我很惊讶在大约十年前开始听到vs的相反用法。我不记得我是什么时候第一次听到这里确定的意义被使用的,但我怀疑是在 1960 年代的中学(高中)科学:与许多这样的用法一样,我的科学老师倾向于使用语言作为对他们来说是自然的,而不是反思用法或解释它。尽管有成千上万的教科书,但这就是许多科学语言的传承方式。

同样在绘图上:即使使用散点图和折线图也有许多例外情况是的轴。在地球和环境科学中,通常低于或高于地表的深度在是的轴:什么可以更垂直?这就是这些领域的人们思考地核、钻孔和地下或大气中的类似痕迹的方式。

细节:vs for vs是缩略语,不是缩写;许多(英国)英式指南建议在这种情况下不要使用停顿或句号。

编辑 2018 年 4 月 12 日/2020 年 5 月 14 日 Wild 和 Seber (2000, pp.107-108) 在他们出色的介绍性文本中以这种方式解释它:'在绘图时,通常使用垂直轴来表示响应变量和横轴代表解释变量X. (这就是当我们说“我们绘制相对X.")'

然而,在同一章中,他们在第 102 页和第 111 页的标题中使用相反的约定,以及他们在第 109 页敦促的约定。另见第 140、527、534、537 页。

由此我得出三点: (a) 我在文献中所敦促的惯例有解释。(b) 我们说的是惯例,而不是规则。(c) 一流的作者可能和其他任何人一样在小细节上不一致。

Wild,CJ 和 Seber,GAF 2000。偶然相遇:数据分析和推理的第一门课程。纽约:约翰威利。

在 meta.CV 上,@Glen_b认为“对抗”并不是统计学中的真正技术术语。我同意。我认为它通常以松散和口语化的方式使用。在统计上下文中使用时,该术语主要表示比较(与其与体育相关的竞争含义相反)。

因此,在讨论条件或组的比较时,很自然地应用“对”。关于解释影响大小(平均差)的符号的问题,我认为我们对“治疗与对照”为阳性时治疗均值较高的理解主要来自我们对治疗性质的理解和控制而不是这种理解由“对”的含义所承载。如果您参考“A组与B组”的比较,那么A组没有任何内在的东西以指示其状态是默认条件还是对比条件。结果,这种情况将是模棱两可的。因为减法不是可交换的/从左到右移动,我认为对正差异的解释意味着列出的第一组更大会有偏好。尽管如此,我认为这种情况本质上是模棱两可的,我们应该小心明确说明哪个更大。例如,“我们比较了 A 和 B,发现 A 明显更大,标准差为 d”。

另一方面,当我们制作散点图时,我们实际上并没有比较 X 和 Y。事实上,我们正在检查它们之间的关系。因此,在这种情况下使用“对”有点用词不当。(注意,我一直这么说。)关于我自己的个人用法,我认为“X 与 Y”比回归1(顺序有意义)更类似于相关性(即无方向性)。同样,我认为这种用法是模棱两可的,我们有责任通过使用轴标签和图形标题等来明确。

我在这里的一般观点是,所有这些语言都是或可能是模棱两可的。我认为说得很好,但是我们应该以某种方式补充这些以使含义清晰。

1. 我确实更有意地使用“反对”一词(如“我将 Y 与 X 绘制”)。在这种情况下,Y 位于 y 轴上和/或是响应变量。

Versus 仅表示“差异”。它并不意味着任何类型的基线治疗关系。您有 A 组的平均值和 B 组的平均值。测试 A 与 B 测试平均值的差异是否显着大于零。测试 B 与 A 是一回事。偶然关系或将其中一组确定为基线涉及统计外的定性信息。