合适的建模方法来合并不同的信号

数据挖掘 机器学习 统计数据 结构方程建模
2022-02-14 13:59:20

我正在处理正在审查的内容形式的数据,以确定它是否违反政策标准。在审查过程中,有几种方法可以增加做出正确决定的机会。内容可能会被发送以进行多次审查,在这种情况下,它会被多次审查以帮助做出正确的决定。我们还可以检查审查内容的人的历史准确性分数,更高的准确性分数表明正确决策的可能性更高。同样,我们可以检查一些其他因素,例如审查时间的长短,原始内容的类型等。

有一个单独的审计过程评估决策子集并在该实例中决定策略正确决策。我们可以将这些政策正确的决策与原始决策进行比较,以评估多审查系统的准确性边际提升、审查员准确性等。目标是开发一个系统,将这些信号结合起来并输出一个分数,该分数代表我们对复核决定正确。

我已经根据各个信号对准确性的边际改进进行了分析,我还根据我们拥有的样本数量计算了这些分数的误差范围。例如,当内容被多次审查时,它更可能是 x% 的正确决定,误差为 0.5%。由于我们的样本较少,一些信号的误差幅度较高。

我试图找出将所有信号合并到一个分数中的最佳方法。我不确定常规分类器是否会适用,因为只有一部分帖子得到了多次审查,而且我们只有一部分的历史审查者准确度得分。

我一直在思考它的方式是决策树的形式,如果内容已经过多次审查是/否,如果我们有一个准确度得分是/否。也许决策树/随机森林模型是合适的。如果模型是可解释的并且可以解释输出,那就太好了。我也愿意接受更直接的解决方案,而不需要复杂的建模。

感谢您对此提供的任何建议:)

1个回答

将多个模型组合在一起通常称为集成。

您正在描述分层集成。有更简单的集成方法,例如投票和加权投票。