以间隔而不是点给出的数据分析

机器算法验证 可能性 间隔审查
2022-03-20 01:26:59

我有一组数据不是作为而是作为对\boldsymbol{x}_{interval} = (x^{(start)}_1, x^{ (end)}_1), \dots, (x^{(start)}_n, x^{(end)}_n)。对于每一对(x^{(start)}_i, x^{(end)}_i),真正的x_i位于区间(x^{(start)}_i, x^{(end)}_i) 中,但不知道在哪里。x=x1,,xn,xinterval=(x1(start),x1(end)),,(xn(start),xn(end)).(xi(start),xi(end)),xi(xi(start),xi(end)),

在上下文中,这意味着我们知道事件xi发生的时间间隔,这告诉我们它发生在xi(start),但在xi(end)之前。

分析的目标是对这些数据进行建模或以某种方式近似分布。最初,我将尝试使用区间中包含的信息来拟合未观察到的事件\boldsymbol{x}的分布的正态分布 x

我很难找到有关此类问题的任何信息。这是一个已知的研究领域,统计区间分析吗?

2个回答

数据被删失,特别是区间删失审查,尤其是右审查(开始但没有结束),是事件发生时间数据的一个共同特征,并在生存分析(医学)或可靠性分析(工程)下处理。

对于此类数据的参数建模,关键的见解是未经审查数据对联合似然的贡献形式为,而来自审查数据的贡献形式为其中是密度 &是分布函数。在独立审查的假设下——你不应该跳到这个——这些是推理所需的可能性的唯一部分,因为审查时间不包含有关参数的额外信息。如果正态分布似乎适合从可能性的等值线图开始与均值和方差参数,然后在数值上改进初始最大似然估计。

f(xi)
F(xi(end))F(xi(start)),
f()F()

检查单变量分布的一个好的开始是查看非参数最大似然估计器 (NPMLE)。这是 Kaplan-Meier 曲线的概括(它本身是经验分布函数的概括),它将为您提供累积分布函数的非参数估计。有趣的是,这个估计值不是唯一的(与 EDF 或 Kaplan Meier 曲线不同),而是在一个区间内已知。所以你会得到一对绑定 NPMLE 的阶跃函数,而不是单阶函数。

虽然这个估计器有利于检查分布的形状,但它可能有点不稳定,即估计中的高方差。可以拟合标准参数模型,但仍建议至少使用 NPMLE 进行模型检查。

许多标准的生存回归模型都是可用的(例如,比例风险、加速故障时间和比例几率)。有趣的是,尽管 NPMLE 对生存曲线的估计具有高方差,但使用 NPMLE 进行基线分布的半参数模型中的回归参数不会受到不稳定性的影响。因此,半参数回归方法在推理方面非常流行。

@Scortchi 和 @whuber 提出了关于观察间隔的开始和结束的生成的重要观点(由 OP 定义)。一个标准的简化假设(应该仔细考虑)是有一组检查时间独立于实际事件时间/感兴趣的结果生成(相等当我们准确地观察事件时间时发生)。然后,我们观察到的只是区间使得xistart,xiendC0C1,...,CktCj,Cj+1tCj,Cj+1. 但是,如果事件时间可能强烈影响检查时间似乎是合理的,则在分析中必须小心。例如,假设我们感兴趣的事件是蛀牙,而我们的检查是看牙医。如果我们经常去看牙医,那么独立的假设似乎是合理的。但是如果我们很少去看牙医,除非我们的牙齿很疼,那么肯定会影响tCj

在我的 R 包中使用这些模型的简短教程icenReg可以在这里找到。