找出哪些值导致随机树做出决定

数据挖掘 分类 随机森林
2022-03-02 08:11:43

我有一个生产塑料零件的机器数据集。相机评估塑料部件是否正确生产(二元分类)。我试图弄清楚哪些因素会影响错误生产的零件。例如,我在生产过程中有不同的机器零件温度值。

我正在使用随机森林对数据进行分类。测试数据集被很好地识别。下一步是找出导致错误生产零件的值(例如,当温度> 150K 时:零件损坏)。我已经搜索了互联网,但我找不到任何有关此的信息。

目前我正在尝试一种蛮力方法,我只是生成一个测试数据集,在其中我经历不同的值范围。但到目前为止,一切都被归类为错误生产的部分。

我可以使用其他方法来获取值吗?

谢谢!

1个回答

如果您的数据集可分离为一系列巧妙的决策,那么分类和回归树 (CART) 将为您提供您正在寻找的解决方案类型。你为随机森林付出的代价是,通过生成许多随机树来减少方差,你也在显着降低模型的可解释性。可以为您提供本地解决方案的解决方案是 LIME,或者您可以计算 SHAP 值或特征重要性,但这会在模型的上下文中为您提供重要性,并且可能对您要做出的决策类型没有用处。