使用不确定数据进行监督学习?

机器算法验证 机器学习 监督学习
2022-03-14 02:47:55

是否有将监督学习模型应用于不确定数据集的现有方法?例如,假设我们有一个包含 A 类和 B 类的数据集:

+----------+----------+-------+-----------+
| FeatureA | FeatureB | Label | Certainty |
+----------+----------+-------+-----------+
|        2 |        3 | A     | 50%       |
|        3 |        1 | B     | 80%       |
|        1 |        1 | A     | 100%      |
+----------+----------+-------+-----------+

我们如何在此基础上训练机器学习模型?谢谢。

2个回答

作为您赋予数据的数字质量,我认为这种“确定性”肯定可以用作权重。较高的“确定性”分数会增加数据对决策函数的权重,这是有道理的。

许多监督学习算法都支持权重,因此您只需找到您打算使用的加权版本。

您可以将它们替换为确定性的连续值,而不是使用标签 A 或 B——例如,1对应于你确定的东西A,0对应于你确定的东西B0.6对应于你 40% 肯定的东西A. 然后,有一个模型,而不是预测类A或者B输出之间的分数01基于你认为它的一个或另一个的多少(并根据它的 > 或 < 1/2 阈值这个分数)。这会将您的分类问题变成回归问题(您可以将其阈值返回到分类器)。

例如,您可以将线性模型拟合到logp(A|x)p(B|x)=logp(A|x)1P(A|x)作为β0+β1Tx(在哪里p(A|x)是上面的确定性)。然后,当你想测试一些数据时,将其插入模型,并输出标签A如果β0+β1Tx>0B除此以外。