PMML模型在不同平台上的评分差异

数据挖掘 机器学习 r apache-hadoop 随机森林 预测建模
2022-02-26 21:19:32

我已经构建了一个玩具随机森林模型R(使用包中的German Credit数据集caret),使用库将其导出PMML 4.0并部署到 Hadoop 上Cascading Pattern

我遇到了一个问题,即Cascading Pattern对相同数据的评分(在二进制分类问题中)与R. 在 200 次观察中,有 2 次得分不同。

为什么是这样?可能是由于随机森林的实施有所不同吗?

3个回答

不同之处在于,似乎是由于随机森林在RCascading Pattern(以及openscoring我后来尝试的)中关于树投票的关系的不同实现 - 即当构建偶数棵树时(例如,500 棵)和恰好一半将应用程序归类为Good,另一半归类为Bad,这些情况的处理方式不同。通过增长和奇数(501)棵树来解决它。

我认为最可能的解释是这两个库并不完全支持 PMML 中的 TreeModel 以同样的方式。也许一个人只支持一部分特性,而忽略了它不理解的特性。这可能会导致不同的得分。

我还会仔细检查两种情况下的上游解析代码是否相同。也许上游对缺失值的处理方式不同。

决策树是不稳定的学习者,对输入参数的变化非常敏感。