我想知道下面描述的过程是否有效/可接受以及任何可用的理由。
想法:监督学习算法不假设数据的底层结构/分布。在一天结束时,他们输出点估计。我希望以某种方式量化估计的不确定性。现在,ML 模型构建过程本质上是随机的(例如,在超参数调整的交叉验证采样和随机 GBM 中的子采样中),因此建模管道将为具有每个不同种子的相同预测器提供不同的输出。我的(天真的)想法是一遍又一遍地运行这个过程来得出预测的分布,我希望可以就预测的不确定性做出陈述。
如果重要的话,我使用的数据集通常非常小(约 200 行)。
这有意义吗?
澄清一下,我实际上并没有在传统意义上引导数据(即我没有重新采样数据)。每次迭代都使用相同的数据集,我只是利用 xval 和随机 GBM 中的随机性。