究竟什么是审查数据?

机器算法验证 回归 术语 审查
2022-02-04 03:02:38

我已经阅读了对审查数据的不同描述:

A) 如线程所述,低于或高于某个阈值的未量化数据将被审查。未量化意味着数据高于或低于某个阈值,但我们不知道确切的值。然后在回归模型中将数据标记为低阈值或高阈值它与本演示文稿中的描述相匹配,我发现它非常清楚(第一页上的第二张幻灯片)。换句话说被限制在最小值、最大值或两者兼而有之,因为我们不知道该范围之外的真实值。Y

B) 一位朋友告诉我,我们可以将删失数据模型应用于部分未知 观测值,前提是我们至少有一些关于未知结果的限制信息。例如,我们想根据一些定性标准(商品类型、国家、竞标者财富等)估计静默拍卖和公开拍卖的最终价格。对于公开拍卖,我们知道所有最终价格,对于无声拍卖,我们只知道第一个出价(例如,1,000 美元),但不知道最终价格。有人告诉我,在这种情况下,数据是从上方删失的,应该应用删失回归模型。YYiYi

C)最后是维基百科给出的定义,其中完全缺失,但预测变量可用。我不确定此示例与截断数据有何不同。Y

那么究竟什么是审查数据?

4个回答

考虑以下关于结果和协变量的数据:yx

user y       x   
1    10      2 
2   (-∞,5]   3 
3   [4,+∞)   5   
4   [8,9]    7
5     .      .

对于用户 1,我们有完整的数据。对于其他所有人,我们的数据不完整。用户 2、3 和 4 都被删失:对应于协变量已知值的结果没有被观察到或没有被准确地观察到(左、右和区间删失)。有时这是调查设计中考虑到隐私的产物。在其他时候,它会因其他原因而发生。例如,我们没有观察到任何低于最低工资的工资或高于舞台容量的演唱会门票的实际需求。

用户 5 被截断:结果和协变量都丢失了。这通常会发生,因为我们只收集做某事的人的数据。例如,我们只调查买过东西的人(),所以我们排除了以及他们的的人。我们甚至可能没有此类用户输入数据的行,尽管我们知道它们存在,因为我们知道用于生成样本的规则。另一个例子是偶然截断:我们只观察劳动力中的人的工资报价,因为我们假设工资报价是您工作时的工资。截断是偶然的,因为它不取决于,而是取决于另一个变量。 y>0y=0xy

简而言之,截断意味着比审查更大的信息丢失(A 点和 B 点)。这两种类型的“缺失”都是系统性的。

使用这种类型的数据通常涉及对错误做出强有力的分布假设,并修改考虑到这一点的可能性。更灵活的半参数方法也是可能的。这隐含在您的 B 点中。

描述性地说,我会提供“如果数据样本中的某些观察值具有或构成样本的极值但它们的真实值超出观察到的样本范围,则数据样本将被审查”。但这看似简单。

因此,让我们首先讨论如何得出数据集被审查的结论,这自然会导致我们讨论问题中提出的案例。

假设我们从离散随机变量中得到以下数据集X,我们唯一知道的是它是非负的:

{0,1,1,2,2,2,2,2,2,2}

我们可以说数据集被审查了吗?好吧,我们有权认为它可能是,但不一定是这样:

1)X可能有范围{0,1,2}和概率分布{0.1,0.1,0.8}. 如果确实如此,那么这里似乎没有审查,只是来自这样一个随机变量的“预期”样本,具有有限的支持和高度不对称的分布。

2)但情况可能是这样的X有范围{0,1,...,9}具有均匀概率分布{0.1,0.1,...0.1},在这种情况下,我们的数据样本很可能会被审查。

我们怎么知道?我们不能,除非我们拥有先验知识或信息,这将使我们能够支持一种或另一种情况。问题中提出的三个案例是否代表了审查效果的先验知识?让我们来看看:

案例 A)描述了一种情况,对于某些观察,我们只有定性信息,如“非常大”、“非常小”等,这导致我们为观察分配一个极值。请注意,仅仅不知道实际实现的值并不能证明分配极值是合理的。所以我们必须有一些信息表明对于这些观察,它们的值超过或低于所有观察到的值。在这种情况下,随机变量的实际范围是未知的,但我们的定性信息允许我们创建一个删失样本(这是另一个讨论,为什么我们不只是放弃我们不拥有实际实现值的观察值)。

案例B)不是审查的情况,如果我理解正确的话,而是样本污染的情况:我们的先验信息告诉我们随机变量的最大值不能超过3(由于物理定律或社会定律 - 假设这是来自仅使用值的评分系统的评分数据1,2,3)。但我们也观察到了价值4和价值5. 怎么会这样?数据记录错误。但在这种情况下,我们并不确定4'沙5应该是全部3的(其实看电脑的侧键盘,更有可能是41的和52的!)。通过以任何方式“纠正”样本,我们不会使其成为审查样本,因为首先随机变量不应该在记录范围内(因此没有分配给值的真实概率45)。

案例 C)是指联合样本,其中我们有一个因变量和预测变量。在这里,由于所研究现象的结构,我们可能有一个样本,其中因变量的值集中在一个或两个极端:工作(仔细考虑:这个案例真的属于这个答案开头的描述性“定义”吗?)。因此,将它们包括在记录小时数“零”的回归中会产生偏差。在另一个极端,可能会争论能够达到的最大工作小时数,例如16/day,并且可能会有员工愿意为给定的报酬工作这么多。但是法律框架不允许这样做,所以我们不遵守这样的“工作时间”。在这里,我们试图估计“预期的劳动力供给函数”——正是关于这个变量,样本被描述为删失。
但是如果我们声明我们要做的是估计“给定失业现象和法律框架的劳动力供给函数”,样本就不会被审查,因为它会反映这两个方面的影响,这是我们想要的它要做。

因此,我们看到将数据样本表征为审查
a) 可能来自不同的情况,并且
b) 需要小心 -
更不用说它可能与截断的情况混淆了。

对我来说,审查意味着我们观察到关于观察的部分信息Zi. 我的意思是,而不是观察Zi=zi我们观察Ziai在哪里ai是实现Ai,这是样本空间的一些随机粗化。我们可以想象我们首先选择一个分区Ai样本空间的Z, 然后Zi生成,我们报告AiAi这样ZiAi(等效地,我们报告I(ZiA)对全部AAi)。无信息审查Zi,例如,则意味着Ai独立于Zi.

这有点启发式和草率。我们可能还应该要求[ZiZiai]是非退化的考虑Zi审查。我们还可能注意到,正如定义的那样,这是缺失数据的概括,其中Zi=(Xi,Yi)有人可能会说Yi缺少如果ai={x}×Y在哪里Y是样本空间YZi缺少如果ai=Z. 当一个人说“Zi被审查”,如果他们遵循我的定义,他们通常的意思是“Zi被审查,但没有丢失”。

区分失数据与截断数据以及缺失数据非常重要。

审查特别适用于生存分析和事件发生时间结果的问题,其中假设手头的事件发生在您停止观察该个体的某个时间点之后的某个时间一个例子是男性与男性发生性关系 (MSM) 以及在一项前瞻性研究中发生 HIV 的风险,他们移动并停止与研究协调员联系。

截断适用于计算特定点的连续变量,在该点处,已知实际值大于或小于该点。一个例子是监测 HIV 感染者和全面发展的 AIDS,CD4 细胞计数低于 300 被评估为检测下限 300。

最后,缺失数据是具有在任何意义上都没有观察到的实际值的数据。删失数据不会丢失事件发生时间数据,也不会被截断。