因变量具有“截止值”时的建模

机器算法验证 回归 造型 生存 审查
2022-03-06 04:18:12

如果我使用的任何术语不正确,请提前道歉。我欢迎任何更正。如果我所说的“截止”有不同的名称,请告诉我,我可以更新问题。

我感兴趣的情况是:你有自变量和一个因变量我将使其含糊不清,但假设为这些变量获得一个好的回归模型会相对简单。xy

但是,您要创建的模型适用于自变量和因变量,其中ay范围内的某个固定值。同样,您有权访问的数据不包括y,只有wxw=min(y,a)ayyw

一个(有点不切实际的)例子是,如果您试图模拟人们将领取养老金的年限。在这种情况下,x可以是相关信息,例如性别、体重、每周锻炼时间等。“基础”变量y是预期寿命。但是,您可以访问并尝试在模型中预测的变量是w=min(0,yr)其中 r 是退休年龄(为简单起见,假设它是固定的)。

在回归建模中是否有处理这个问题的好方法?

1个回答

这种模型有几个名称,取决于学科和主题领域。它的通用名称是删失因变量、截断因变量、有限因变量、生存分析、Tobit 和删失回归。我可能会遗漏其他几个名字。

您建议在的位置设置的设置称为“右删失”,因为在实线右侧太远的值会被删失——而我们只看到删失点,min{yi,a}yia

处理此类数据的一种方法是使用潜在变量(这基本上就是您建议的)。这是进行的一种方法:

yi=xiβ+εiwi=min{yi,a}εiN(0,σ2) iid

然后,您可以通过最大似然来分析这一点。发生删失的观测对似然函数有贡献,而没有删失的观测对似然函数有贡献到似然函数。标准法线的 CDF 是,标准法线的密度是因此,似然函数如下所示:P{yi>a}=Φ(1σxiβa)1σϕ((yixiβ)/σ)Φϕ

L(β,σ)=i  censoredΦ(1σxiβa)i  censored1σϕ((yixiβ)/σ)

你通过最大化这个来估计您会得到标准误作为通常的最大似然标准误。βσ

正如您可能想象的那样,这只是众多方法中的一种。