如何估计预测变量是右删失区间变量的曲线形状?

机器算法验证 分布 序数数据 曲线拟合 间隔审查
2022-04-06 01:50:05

是否有可用于进行区间回归风格分析的方法,其中预测变量是区间变量,结果变量是二分变量?

为了提供一些背景知识,我想绘制数据集中两个变量之间的关系,其中 x 轴是连续测量,以序数格式收集。类别宽度不均匀(并且增加)。举一个具体的例子,这些类别是关于一类商品的支出,并且(以美元计):0-50;51-100; 101-250;251-500; 501-1000;> 1000。y 轴是一个是/否样式变量。

我对确定这种关系可能是线性的还是指数的特别感兴趣。

除了在每个 x 轴类别中任意选择一个点之外,还有什么方法可以做到这一点?显然,最后一个类别(> 1000)是最有问题的。如果您可以将我指向 R 包的方向,则可以加分(比喻地说)。

如果有帮助,我很乐意寻找需要强分布假设的答案(例如,数据是零膨胀伽马或对数正态分布)。

1个回答

事实证明,与具有区间删失因变量的回归相比,具有区间删失自变量的回归问题的研究要少得多。关于这个主题至少有十几项研究,但作为一名数理统计有限的应用研究人员,我发现其中很少有研究。

一个例外是Timothy R. Johnson 和 Michelle M. Wiest最近Psychological Methods上发表的一篇论文。与许多其他研究人员一致,他们将区间审查视为一种缺失数据问题。与其他展示难以实施的方法的论文不同,Johnson 和 Wiest 在附录中提供了许多 JAGS 模型规范,可以对其进行修改以适应手头的问题。他们的方法可扩展到所有具有区间删失和/或顶部编码协变量的广义线性模型。