机器算法验证 - 统计显着与独立/依赖 - 吾爱随笔录

统计显着与独立/依赖

机器算法验证统计学意义独立

2022-03-25 08:25:06

具有统计显着性（例如两个样本之间的差异）与说明一组数字是独立的还是相关的之间有什么区别。

2个回答

独立样本 t 检验中的显着性仅意味着对与您实际采样的平均差一样极端的平均差进行抽样的概率（如果 null 为真）小于 0.05。

这与依赖/独立完全无关。“依赖”是指一些个体观察的分布与其他观察的分布相关，例如 A）他们是同一个人第二次进行相同的测试，B）每组中的人在某个预测试变量上匹配， C) 两个群体中的人是相关的（即家庭）。“独立”是指没有这种联系。

为什么停在检验？ $t$

您可以将两个不相关的变量视为两个正交向量，就像二维笛卡尔坐标系中轴和 $x$ $y$

当两个向量中的任何一个，假设和与另一个相关时，x 的某个部分可以投影到 y 上，反之亦然。考虑到这一点，很容易看出， $\mathbf{x}$ $\mathbf{y}$

\begin{aligned} ⟨ x, y ⟩ & = ‖ x ‖ ‖ y ‖ \cos (θ) \\ \frac{⟨ x, y ⟩}{‖ x ‖ ‖ y ‖} & = \cos (θ) = r \end{aligned}

$\begin{align*} \left<\mathbf{x},\mathbf{y}\right>&=\|x\|\|y\|\cos\left(\theta\right)\\ \frac{\left<\mathbf{x},\mathbf{y}\right>}{\|x\|\|y\|}&=\cos\left(\theta\right)=r \end{align*}$

其中是 Pearson 相关系数，是参数的内积。当我了解到这一点时，我完全被相关性概念在几何上的简单性所震撼。这绝对不是衡量两个（或更多）变量之间相关性的唯一方法。 $r$ $\left<\cdot,\cdot\right>$

显着性测试是另一回事。通常，我们想知道两个（或更多）组在某些结果变量上的差异是因为对所述组进行了一些操作。就像布赖恩说的那样，您想知道这两组是否来自同一分布，因此您计算从实验中获得的平均差（按均值的标准误差缩放）的抽样概率，假设零假设（手段没有显着差异）是真的。在行为研究中（通常在其他地方），如果这个概率小于 0.05，您可以得出结论，这两个（或更多）均值的差异可能是由于您的操纵。

编辑：Dilip Sarwate 指出两个不相关的变量可以在统计上依赖，所以我拿出了第一部分。感谢那。

其它你可能感兴趣的问题

上一篇是什么意思∥一个∥p= (∑n我= 1|一种一世（吨）|p)1p‖a‖p=(∑i=1n|ai(t)|p)1p? 下一篇假设我有 100 个整数，我不重复地对 10 个进行采样。10 个样本中最低的预期排名是多少？