我认为确定一个适当的阈值,表明两个样本之间的差异是有意义的,而不仅仅是统计上的显着差异,这将是一个有价值的步骤,部分由@Alexis 的回答所描述。
不过,我想提出一种基于模拟的替代方法。这里的逻辑是,您可以根据较大的数据集创建一系列合理的样本计数,然后确定您观察到的较小数据集的计数通常落在这些合理范围之内还是之外。
然后,使用较大样本中的计数来表示更接近人口计数的内容,您可以从与较小样本相同大小的所述(伪)人口中生成足够多的随机样本。我将使用 R 和一组更小的分类数据来说明:
> #Observed frequencies in the larger sample:
> lambdas<-c(2500,30000,25000,17000,18750,19200, 2000, 2500, 950, 750)
> N<-sum(lambdas)
> #Total "psuedo"-population size
> N
[1] 118650
>
> #Probabilities for each category (based on "pseudo"-population)
> p<-lambdas/N
> p
[1] 0.021070375 0.252844501 0.210703751 0.143278550 0.158027813 0.161820480
[7] 0.016856300 0.021070375 0.008006743 0.006321113
>
> #Sample size for smaller data set
> N2<-2500
>
> #Category names
> cat.names<-paste('cat', sep='_', letters[1:length(p)])
>
> #Simulate category counts
> n.sims<-10000
> sim.counts<-data.frame()
> for(i in 1:n.sims){
+ temp<-as.vector(table(sample(cat.names, size=N2, prob=p, replace=T)))
+ sim.counts<-rbind(sim.counts, temp)
+ }
>
> colnames(sim.counts)<-cat.names
> head(sim.counts)
cat_a cat_b cat_c cat_d cat_e cat_f cat_g cat_h cat_i cat_j
1 46 576 535 348 453 400 50 49 28 15
2 46 603 537 338 421 426 38 50 25 16
3 50 633 495 350 391 450 46 46 22 17
4 60 606 521 344 440 397 50 50 18 14
5 42 630 539 381 386 398 34 58 19 13
6 48 663 514 356 398 380 40 62 22 17
>
> #create empty vectors to hold upper and lower percentile values
> LB.95<-vector()
> UB.95<-vector()
> #calculate 95% interval
> for(i in 1:length(p)){
+ LB.95[i]<-quantile(sim.counts[,i], .025)
+ UB.95[i]<-quantile(sim.counts[,i], .975)
+ }
>
> cbind(cat.names, LB.95, UB.95)
cat.names LB.95 UB.95
[1,] "cat_a" "39" "67"
[2,] "cat_b" "590" "675"
[3,] "cat_c" "487" "566"
[4,] "cat_d" "324" "392"
[5,] "cat_e" "360" "431"
[6,] "cat_f" "369" "442"
[7,] "cat_g" "30" "55"
[8,] "cat_h" "39" "67"
[9,] "cat_i" "12" "30"
[10,] "cat_j" "9" "24"
现在最大的警告是我正在处理来自更大样本的估计值(N= 118,650),就好像它们是来自总体的参数一样。在某些方面,这种模拟有点像穷人的贝叶斯方法来解决问题,我忽略了我对基于大初始样本的真实参数的不确定性。人们当然可以对这个问题采取更全面的贝叶斯方法,我相信应用统计学界的许多倡导者会认为这个问题非常适合贝叶斯技术。
需要注意的是,您如何使用此分析?好吧,您可以获取获得的大小样本N2
(在我的情况下N2= 2500),计算每个类别的计数,并根据模拟确定这些计数是否落在预先确定的区间内(我选择了 95% 的置信区间 - 显示在最终表格中)。
请注意,这种方法没有假设检验框架中经常依赖的漂亮、清晰的决策规则,并且取决于您的最终受众,这可能是一个重要的问题。但是,您可以回答(甚至可能更有意义)从较小样本中获得的计数是否落在可能的值范围内,如果从中抽取样本的总体参数等同于更大(可能是先前获得的)比较样本.