最显着频繁类别

机器算法验证 频率
2022-04-16 07:32:49

我正在测量一种语言样本词典中辅​​音的频率。结果如下:

+-----+-----+-----+-----+----+----+-------+
|  p  |  t  |  k  |  m  | n  | r  | Total |
+-----+-----+-----+-----+----+----+-------+
| 278 | 256 | 122 | 189 | 83 | 72 |  1000 |
+-----+-----+-----+-----+----+----+-------+

很容易看出频率相当不同,拟合优度检验证实了这一点( = 208.5345, df = 5, p < 0.001)。χ2χ2

我真正感兴趣的问题如下:

最常见的辅音是p,但这很重要吗?

换句话说,我可以说p是最常见的辅音吗?p是否明显比第二频繁的辅音t更频繁,或者两者之间的差异可能是偶然的?

我应该使用什么测试?是否可以简单地使用测试仅对pt的频率进行拟合优度χ2

1个回答

不是直接的,因为您选择比较的类别是基于它们的观察值。

仍然可以使用卡方检验统计量来测试这样的事情,但是在零假设下的检验统计量的分布可能不会(而且我希望不是)很好地近似于被比较的类别时应用的分布是不是基于观察到的数据。

也就是说,您需要为检验统计量计算一个新分布。

另请注意,如果您已经进行了一次比较(例如整体卡方),并且进行此比较的决定取决于该比较,则该测试也会受到该条件决定的影响。


一些细节:

这是我理解发生了什么的情况。

有一个辅音计数的列联表。

我们决定测试两个类别之间的比例是否相等。我们可以以通常的方式构建卡方拟合优度检验,以它们的总数为条件:

  p    t     Total
 278  256  | 534

(然而,这实际上是一个单尾检验,因为我们知道观察到的 p 计数大于观察到的 t 计数。)

然后,我们当然可以计算 chi=square 检验统计量:

> chisq.test(c(278,256))

        Chi-squared test for given probabilities

data:  c(278, 256)
X-squared = 0.9064, df = 1, p-value = 0.3411

p 值可能意义不大,但统计量仍然是衡量两者之间差异大小的指标。

那么我们如何生成null下的分布呢?这取决于我们对情况的假设以及这是否是事后测试。

举个例子,假设我们有一个没有任何先前测试的 6 类表,并且我们对“最常见的表比第二常见的表更常见吗?”这个问题感兴趣。反对他们都来自所有 6 个类别均等可能的分布的空值

然后我们可以很容易地从null下的分布进行模拟。这个:

  chisq.test(sort(table(sample(1:6,1000,repl=TRUE)),decr=TRUE)[1:2])$statistic

从该空值生成单个观察值。我们可以重复多次以了解分布的样子:

在此处输入图像描述

由于离散性,很难判断这是否与分布很好地近似,但查看均值和方差表明不是。但是,如果我们通过均值和方差进行匹配,则适当缩放的统计量版本在不同的 df 处具有近似正确的分布,特别是在下尾(p 值,即卡方的上尾) :χ12

在此处输入图像描述

如果我们现在查看原始数据:

> pchisq(2.4*chisq.test(c(278,256))$statistic,df=0.8,lower.tail=FALSE)
X-squared 
0.1059023 

这种方法建议使用卡方统计量和修改后的卡方分布的 p 值约为 0.1。如果我们直接从模拟分布中计算 p 值,我们得到的 p 值为 0.0993。


换句话说,我可以说 p 是最常见的辅音吗?

虽然我认为可以做类似的事情,但我不认为将最受欢迎的与第二受欢迎的进行对比不一定是最好的方法。例如,我们可以简单地考虑在等比例零点下最大组的比例分布。