机器算法验证 - Cox 比例风险模型和非随机选择的样本 - 吾爱随笔录

Cox 比例风险模型和非随机选择的样本

机器算法验证偏见 cox模型

2022-03-22 01:46:53

是否有任何方法可以纠正由非随机选择的样本引起的 Cox 比例风险模型中的偏差（类似于 Heckman 的校正）？

背景：
假设情况如下：
- 在前两年，所有客户都被接受。
- 在这两年之后，Cox PH 模型被建立。模型预测客户将使用我们的服务多长时间。
- 由于公司的政策，从现在开始只接受存活3个月的概率大于0.5的客户，其他客户被拒绝。
- 再过两年，需要建立一个新模型。问题是我们只针对已接受的客户设置目标，并且仅使用这些客户可能会导致一些严重的偏见。

2个回答

已经提出了参数化风险模型的解决方案。看看这些：

Prieger, James，2000。“非正态数据的广义参数选择模型”，工作论文 00-9，加州大学戴维斯分校经济系。

Boehmke、Frederick J.、丹尼尔莫雷和梅根香农。2006.“选择偏差和连续时间持续时间模型：后果和建议的解决方案”。美国政治学杂志 50 (1): 192-207。

Stata中有后面论文的代码，包“dursel”

但是，我不知道半参数 Cox 模型的解决方案。

简单的答案是加权。也就是说，您可以使用权重将“接受”组中的组标准化为感兴趣的总体。在使用第一个和第二个 2 年阶段的汇总分析中使用此类权重所产生的问题是，估计的总体权重和参数现在是相关的。通常使用伪似然方法（在这种情况下，它将是某种伪偏似然），您忽略了样本权重和参数估计之间的依赖性。然而，在许多实际情况下（这一个也不例外），考虑到这种依赖性是必要的。创建一个有效的风险比估计器的问题是一个困难的问题，据我所知是开放式的。

改进的两相分层样本模型参数的 Horvitz-Thompson 估计：在流行病学中的应用。

本文讨论了通常应用于逻辑回归的调查方法，但是您也可以对生存数据进行加权。您忽略提及的一些重要考虑因素是您是否有兴趣创建适用于整个人口的预测，或基于 2 年估计的“合格”人口，或基于结果的“合格”人口模型。您也没有确切提到如何从 Cox 模型创建这样的“预测”模型，因为 Cox 模型的拟合值不能被解释为风险。我假设您估计风险比，然后获得基线风险函数的平滑估计。

其它你可能感兴趣的问题

上一篇数据集上的预期最佳性能下一篇Cox回归预测模型的样本量和交叉验证方法