描述性地说,我会提供“如果数据样本中的某些观察值具有或构成样本的极值但它们的真实值超出观察到的样本范围,则数据样本将被审查”。但这看似简单。
因此,让我们首先讨论如何得出数据集被审查的结论,这自然会导致我们讨论问题中提出的案例。
假设我们从离散随机变量中得到以下数据集X,我们唯一知道的是它是非负的:
{0,1,1,2,2,2,2,2,2,2}
我们可以说数据集被审查了吗?好吧,我们有权认为它可能是,但不一定是这样:
1)X可能有范围{0,1,2}和概率分布{0.1,0.1,0.8}. 如果确实如此,那么这里似乎没有审查,只是来自这样一个随机变量的“预期”样本,具有有限的支持和高度不对称的分布。
2)但情况可能是这样的X有范围{0,1,...,9}具有均匀概率分布{0.1,0.1,...0.1},在这种情况下,我们的数据样本很可能会被审查。
我们怎么知道?我们不能,除非我们拥有先验知识或信息,这将使我们能够支持一种或另一种情况。问题中提出的三个案例是否代表了审查效果的先验知识?让我们来看看:
案例 A)描述了一种情况,对于某些观察,我们只有定性信息,如“非常大”、“非常小”等,这导致我们为观察分配一个极值。请注意,仅仅不知道实际实现的值并不能证明分配极值是合理的。所以我们必须有一些信息表明对于这些观察,它们的值超过或低于所有观察到的值。在这种情况下,随机变量的实际范围是未知的,但我们的定性信息允许我们创建一个删失样本(这是另一个讨论,为什么我们不只是放弃我们不拥有实际实现值的观察值)。
案例B)不是审查的情况,如果我理解正确的话,而是样本污染的情况:我们的先验信息告诉我们随机变量的最大值不能超过3(由于物理定律或社会定律 - 假设这是来自仅使用值的评分系统的评分数据1,2,3)。但我们也观察到了价值4和价值5. 怎么会这样?数据记录错误。但在这种情况下,我们并不确定4'沙5应该是全部3的(其实看电脑的侧键盘,更有可能是4是1的和5是2的!)。通过以任何方式“纠正”样本,我们不会使其成为审查样本,因为首先随机变量不应该在记录范围内(因此没有分配给值的真实概率4和5)。
案例 C)是指联合样本,其中我们有一个因变量和预测变量。在这里,由于所研究现象的结构,我们可能有一个样本,其中因变量的值集中在一个或两个极端:工作(仔细考虑:这个案例真的属于这个答案开头的描述性“定义”吗?)。因此,将它们包括在记录小时数“零”的回归中会产生偏差。在另一个极端,可能会争论能够达到的最大工作小时数,例如16/day,并且可能会有员工愿意为给定的报酬工作这么多。但是法律框架不允许这样做,所以我们不遵守这样的“工作时间”。在这里,我们试图估计“预期的劳动力供给函数”——正是关于这个变量,样本被描述为删失。
但是如果我们声明我们要做的是估计“给定失业现象和法律框架的劳动力供给函数”,样本就不会被审查,因为它会反映这两个方面的影响,这是我们想要的它要做。
因此,我们看到将数据样本表征为审查
a) 可能来自不同的情况,并且
b) 需要小心 -
更不用说它可能与截断的情况混淆了。