在Statistical Models and Methods for Lifetime Data一书中,它写道:
审查:由于某些随机原因导致观察不完整。
截断:当观察的不完整性质是由于研究设计固有的系统选择过程造成的。
截断定义中的“研究设计固有的系统选择过程”是什么意思?
审查和截断有什么区别?
在Statistical Models and Methods for Lifetime Data一书中,它写道:
审查:由于某些随机原因导致观察不完整。
截断:当观察的不完整性质是由于研究设计固有的系统选择过程造成的。
截断定义中的“研究设计固有的系统选择过程”是什么意思?
审查和截断有什么区别?
定义各不相同,这两个术语有时可以互换使用。我将尝试使用以下数据集解释最常见的用途:
审查:一些观察将被审查,这意味着我们只知道它们低于(或高于)某个界限。例如,如果我们测量水样中化学物质的浓度,就会发生这种情况。如果浓度太低,实验室设备将无法检测到化学物质的存在。但它可能仍然存在,所以我们只知道浓度低于实验室的检测限。
如果检测限为 1.5,因此低于该限的观测值被删失,我们的示例数据集将变为: 也就是说,我们不知道前两个观测值的实际值,但只是它们小于 1.5。
截断:生成数据的过程只能观察到高于(或低于)截断限制的结果。例如,如果使用仅在其检测到的信号高于特定限制时才被激活的检测器进行测量,就会发生这种情况。可能有很多微弱的传入信号,但我们永远无法用这个检测器来判断。
如果截断限制为 1.5,我们的示例数据集将变为 ,我们不会知道实际上有两个信号没有被记录。
正如从另一个领域(编程)的角度来看,审查和截断是两个不同的操作。
在处理敏感数据集时,例如社会安全号码和电话号码,我可能会对其进行审查或在授予访问权限之前对其进行审查:
123-12-1234 => 999-99-9999
567-56-5678 => 999-99-9999
(906) 123-4567 => (000) 000-0000
这允许应用程序的其余部分正常运行,具有类似的数据结构,但没有真正的信息内容或私人信息的传播。
相比之下,截断通常只是在某个点之后截断剩余的值。要处理应用程序,我不需要数十万条记录,也许我只需要大约 50 条记录,这使得数据访问速度更快,数据集更小。
截断的类似变体是在将值插入到长度或精度有限的列或数据类型中时:
abcdefghijklmnopqrstuv => abcdef
10.23412421345 => 10.23
10.92455311 => 10