多维专家的贝叶斯组合?

数据挖掘 决策树 分类数据 朴素贝叶斯分类器
2021-10-04 17:25:31

在我看来,我有一个稍微复杂的决策树问题版本,无法弄清楚如何建模,我试图避免“将其转储到 NN”解决方案中。

我有一堆专家意见(来自人或算法),其中特征维度重叠。特征(输入)和输出(决策)都是分类的,但我对决策也有确定性(比如说 0-1)。

例如,假设输入特征是 a,b,c,d,e,并且有一个来自 v,w,x,y,z 的输出(决策):

Features   Decision  certainty
 a,b,c       w          0.5
 b,c,d,e     z          0.4
 a,c,e,f     v          0.75
 ...

如果没有确定性,这显然只是一个微不足道的分类决策树问题。然而,确定性既简化了问题,也使问题复杂化了。如果 features->decision 数据不一致(它是!),它会简化它,你根本没有输出,所以确定性使我免于失败模式,但另一方面,我不确定是什么正确地处理确定性。

确定性表明贝叶斯组合,如果数据是一维的,这也是微不足道的。所以我有点夹在决策树和贝叶斯模型之间。一个明显的解决办法是将其转储到一个 NN(甚至只是一个 NB 或回归)中,使用确定性作为类别的输出,或者做一些愚蠢的事情,比如根据(非)确定性复制 I/O 配对。

在此先感谢您的任何建议。

3个回答

然而,确定性既简化了问题,也使问题复杂化了。如果 features->decision 数据不一致(它是!),它会简化它,你根本没有输出,所以确定性使我免于失败模式,但另一方面,我不确定是什么正确地处理确定性。

我不明白你想说什么。

无论如何,考虑确定性的最直接方法是将其用作权重(或曝光)并使用支持它的方法,例如 GLM 或 GBM。

例如,在这篇博文中解释了权重的概念

只是让你知道,在这种情况下,即使是神经网络也无法帮助你。为了让神经网络发挥作用,您需要在数据中拥有大量可学习的模式(即没有不确定性/不可约误差的数据)。如果数据本身在结果(即概率结果)本身中有很多不确定性,那么 NN 很难对其进行优化。(有关更多信息,请考虑使用 NN 对以下问题进行建模:XOR(概率 = 1)与 XOR(概率 <1))。

在这种情况下,您最好的选择可能是使用回归。让我们知道它是如何折叠的,谢谢。

这在一定程度上取决于这里测量的不确定性。

如果这意味着它是给定结果的概率为p,那么它并不难接近。如果你有 4 个结果并且你知道那个结果有60%,那么其他三个加起来有40%。您可以将这 40% 均匀地分布在其他三个类别中,使用先验概率将其分布或使用另一个模型来预测它将如何分布。一旦您对其他概率建立了模型,您就可以使用神经网络分类方法来传递这些概率,而不是一个热编码目标。直接将它们传递给基于树的方法是行不通的,尽管 XGBoost 多类分类可能能够被调整来处理这个问题。也就是说,另一种方法是重新采样您的数据集以使其显着更大,并从该分布中对目标进行采样。

如果不确定性是一种比直接的数学事物更像是一种感觉的度量,那么加权你的损失可能会更好,但它可能不一定是最好的线性方式。