学习算法可以接收数据及其不确定性吗?(将 ML 算法与错误链接在一起)

数据挖掘 机器学习
2021-09-25 12:08:09

考虑到上一步的不确定性(误差),如何链接统计方法(估计器或分类器)?

例如:考虑一个管道,其中房价是根据人口普查和地理数据估算的,并被输入另一个算法以估算信用评分。估计房价的误差如何输入信用评分估计器并影响整体误差?

我认为如果只考虑输出值而不考虑上一步的误差,当前估计器的误差会更小,而且会产生误导。不确定性不会在此管道中向前传播,因此最终的不确定性仅是由于最后一步。

我是机器学习的新手,在介绍性书籍或课程中我没有遇到任何关于这个主题的讨论。如果有人可以向我指出好的资源以了解更多关于此的信息,我会很高兴。

2个回答

一种选择是在机器学习中使用贝叶斯方法。

假设机器学习管道中任何阶段的输入都是先验分布,任何阶段的输出都是后验分布。然后可以将阶段与通过分布通过系统传播的不确定性链接在一起。

我能想到三种方法,其中两种取决于你使用的方法:

  • 如果使用线性模型 - 线性回归理论为预测的不确定性提供估计。
  • 如果使用随机森林或装袋算法 - 我们可以通过获取所有树的预测并使用标准偏差聚合它们来提供预测不确定性的估计。
  • 还有一种估计误差的方法不依赖于所使用的算法。这个想法是训练一个常规模型来预测平均结果。拟合此模型后,您将模型应用于新的验证集,并计算模型产生的绝对误差。之后,您使用另一个模型来预测这些绝对误差。使用第二个模型可以给出不确定性估计——如果第二个模型做出的预测很低,则不确定性会很低,否则不确定性会很高。

当然,可以使用贝叶斯框架,这是首先对不确定性进行建模的自然语言。