问题:我已经安装了一个概率模型(贝叶斯网络)来对二元结果变量进行建模。我想创建一个高分辨率校准图(例如样条曲线),通过自举进行过拟合校正。是否有计算这种曲线的标准程序?
注意事项:我可以通过训练/测试拆分轻松地做到这一点,但我不想丢弃任何数据,因为我的样本少于 20,000 个。所以我很自然地想到了自举。我知道在 Frank Harrell 的 rms 包中实现了一个这样的功能(校准),但不幸的是,我使用的模型不受包支持。
额外的问题:是否可以通过自举重新校准错误校准的模型?我问这个的原因是我试图通过重新校准模型
- 在训练/测试中拆分数据
- 将模型拟合到训练集
- 重新校准模型以训练集(使用三次样条)
- 在测试集上评估校准
以上述方式重新校准的模型在训练集上得到了完美的校准,但在测试集上没有那么多,这可能表明存在轻微的过度拟合。我还尝试进一步拆分测试集,在一次拆分时校准并在第二次拆分时评估校准。我得到了更好的结果(虽然仍然没有完全校准),但是集合变得非常小(~1000 个样本),因此校准不可靠