机器算法验证 - 列联表中的条件是什么？ - 吾爱随笔录

列联表中的条件是什么？

机器算法验证术语列联表

2022-03-23 19:28:44

Merriam-Webster词典将偶然事件或情况定义为

1 : likely but not certain to happen : possible
2 : not logically necessary; especially : empirical
3 a : happening by chance or unforeseen causes
  b : subject to chance or unseen effects : unpredictable
  c : intended for use in circumstances not completely foreseen
4 : dependent on or conditioned by something else
5 : not necessitated : determined by free choice

关于当前的统计术语，既然列联表用于表示许多不同情况下的大量数据，为什么我们称它们为“列联表”？该术语中使用的“偶然性”一词是在上述五种意义中的哪一种？

1个回答

维基百科声称该术语是由 Pearson 在论偶然性理论及其与关联和正态相关性的关系中引入的。皮尔逊似乎确实创造了这个词。他说（指的是双向表）：

我将分类与独立概率的总偏差的任何度量称为其偶然性的度量。显然，偶然性越大，两个属性之间的关联或相关性的量就越大，因为这种关联或相关性只是从另一个角度衡量偏离发生独立性的程度。

（皮尔逊，关于权变理论及其与关联和正态相关的关系，1904 年，第 5-6 页。）

Pearson 在引言中解释说，他和其他人以前曾考虑过在所有情况下都按顺序排列的分类变量，并对其进行了分析。例如，为了分析眼睛的颜色，

一种排列的眼睛颜色似乎对应于不同数量的橙色颜料 [...]

本文的重点是开发分析分类变量的方法，而无需对类别进行人为排序。

列联表一词的首次使用出现在同一篇论文的第 34 页：

这一结果使我们能够从初级教科书中发展起来的独立概率的数学理论开始，并从中建立一个广义的关联理论，或者，我称之为偶然性。我们达到了纯列联表的概念，其中子组的顺序无关紧要。

因此，偶然性应该意味着“非独立”。使用偶然性一词是因为如果一个事件的结果是偶然的——即依赖于——即不独立于——另一个事件的结果，则两个事件是偶然的。

换句话说，它与此 Merriam-Webster 页面中的定义 4 相关。

其它你可能感兴趣的问题

上一篇一旦检测到异常值以进行时间序列数据预测，如何纠正？下一篇样本协方差矩阵不可逆时怎么办？