如何结合噪声和无噪声数据集来训练模型

机器算法验证 机器学习 分类 预测模型 参考 数据集
2022-04-02 22:50:37

概述

假设我有两个数据集,它们都由特征行及其匹配的标签组成。其中一个数据集是无噪声的,其标签对应于基本事实,但另一个已损坏,其部分标签被随机翻转。

问题

我们如何组合这些数据集并解释它们不同级别的噪声?据推测,我们不应该只丢弃有噪声的数据,但似乎我们也应该将其与更高质量的无噪声数据区别对待。

我们应该修改损失函数吗?我们应该如何构建训练/验证/测试集?我们应该分别训练两个模型,然后结合它们的预测吗?

我试图将问题形式化

DDnoisy分别是无噪声和有噪声的数据集。为简单起见,假设我们正在尝试学习确定性二元函数f(x){0,1}. 然后是一个例子D或者Dnoisy是一个特征/标签对(x,y). 对所有人(x,y)D, 我们有y=f(x). 但如果(x,y)来自Dnoisy, 然后

y={f(x)with probability p1f(x)with probability 1p,
在哪里p是已知的。

我们如何结合DDnoisy,以及我们如何考虑噪声参数(1p)?

0个回答
没有发现任何回复~