您如何对总体进行抽样是否重要?

机器算法验证 可能性 人口
2022-03-07 16:19:44

我有一个混合均匀的大桶,里面装着无数的弹珠。大桶里有无限数量的弹珠,但它们只有一些未知但数量有限的品种

V={v1,v2,v3,...,vk}
k是未知的,并且对于ij,画一个vi-type marble 可能比绘制 avj型大理石。

在一个实验中,一台机器使用一些未知的程序对大桶进行采样。机器报一套X描述qk样品中的各种大理石:

XV;|X|=q

重复该实验的试验(q在试验中是固定的),我们得到一个子集的序列V,(X1,X2,).

我们唯一知道的其他事情是:

  • 试验是独立且相同的
  • 机器报顶q样本中出现频率最高的品种

我们不知道这台机器是如何对弹珠进行采样的。它可以选择大量弹珠,然后报告q最频繁。或者,它可以继续捡起弹珠,直到有q品种。它还可以做其他事情。

请问我们的试验分布(X1,X2,)受机器取样程序的影响?

1个回答

验证该方法是否重要的​​一个简单方法是为弹珠类型选择特定概率,并根据某些方法计算每个子集的机会。不过,这并不能证明该方法无关紧要。

假设有3类型和每种类型的机会是1/2,1/4, 和1/4, 分别。假设您正在选择2大理石的种类。

假设在选择了大理石之后,您忽略了其余的那种。你得到的机会{v2,v3}21/41/3=1/6.

假设您拒绝具有重复类型的对。的机会{v2,v3}

21/41/421/41/4+21/21/4+21/21/4=1/81/8+1/4+1/4=1/5.

由于这些不同,机器使用的方法很重要。拒绝具有重复类型的对往往会减少具有常见类型的对的权重。

您提到的两种方法是等效的。采完弹珠后忽略其他同类与采摘直到你有q不同种类。