数据挖掘 - 多维专家的贝叶斯组合？ - 吾爱随笔录

多维专家的贝叶斯组合？

数据挖掘决策树分类数据朴素贝叶斯分类器

2021-10-04 17:25:31

在我看来，我有一个稍微复杂的决策树问题版本，无法弄清楚如何建模，我试图避免“将其转储到 NN”解决方案中。

我有一堆专家意见（来自人或算法），其中特征维度重叠。特征（输入）和输出（决策）都是分类的，但我对决策也有确定性（比如说 0-1）。

例如，假设输入特征是 a,b,c,d,e，并且有一个来自 v,w,x,y,z 的输出（决策）：

Features   Decision  certainty
 a,b,c       w          0.5
 b,c,d,e     z          0.4
 a,c,e,f     v          0.75
 ...

如果没有确定性，这显然只是一个微不足道的分类决策树问题。然而，确定性既简化了问题，也使问题复杂化了。如果 features->decision 数据不一致（它是！），它会简化它，你根本没有输出，所以确定性使我免于失败模式，但另一方面，我不确定是什么正确地处理确定性。

确定性表明贝叶斯组合，如果数据是一维的，这也是微不足道的。所以我有点夹在决策树和贝叶斯模型之间。一个明显的解决办法是将其转储到一个 NN（甚至只是一个 NB 或回归）中，使用确定性作为类别的输出，或者做一些愚蠢的事情，比如根据（非）确定性复制 I/O 配对。

在此先感谢您的任何建议。

3个回答

然而，确定性既简化了问题，也使问题复杂化了。如果 features->decision 数据不一致（它是！），它会简化它，你根本没有输出，所以确定性使我免于失败模式，但另一方面，我不确定是什么正确地处理确定性。

我不明白你想说什么。

无论如何，考虑确定性的最直接方法是将其用作权重（或曝光）并使用支持它的方法，例如 GLM 或 GBM。

例如，在这篇博文中解释了权重的概念

只是让你知道，在这种情况下，即使是神经网络也无法帮助你。为了让神经网络发挥作用，您需要在数据中拥有大量可学习的模式（即没有不确定性/不可约误差的数据）。如果数据本身在结果（即概率结果）本身中有很多不确定性，那么 NN 很难对其进行优化。（有关更多信息，请考虑使用 NN 对以下问题进行建模：XOR（概率 = 1）与 XOR（概率 <1））。

在这种情况下，您最好的选择可能是使用回归。让我们知道它是如何折叠的，谢谢。

这在一定程度上取决于这里测量的不确定性。

如果这意味着它是给定结果的概率为p，那么它并不难接近。如果你有 4 个结果并且你知道那个结果有60%，那么其他三个加起来有40%。您可以将这 40% 均匀地分布在其他三个类别中，使用先验概率将其分布或使用另一个模型来预测它将如何分布。一旦您对其他概率建立了模型，您就可以使用神经网络分类方法来传递这些概率，而不是一个热编码目标。直接将它们传递给基于树的方法是行不通的，尽管 XGBoost 多类分类可能能够被调整来处理这个问题。也就是说，另一种方法是重新采样您的数据集以使其显着更大，并从该分布中对目标进行采样。

如果不确定性是一种比直接的数学事物更像是一种感觉的度量，那么加权你的损失可能会更好，但它可能不一定是最好的线性方式。

其它你可能感兴趣的问题

上一篇人为增加训练数据下一篇连续（而不是离散）动作的强化学习