SkLearn 实施中没有隔离林高度限制

数据挖掘 scikit-学习 决策树 离群值
2022-02-24 09:27:17

在隔离森林算法的原始出版物中,作者提到了一个高度限制参数来控制算法的粒度。我没有在算法的 Sklearn 实现中找到显式参数,我想知道是否可以通过其他方式控制粒度?

1个回答

不幸的是,似乎没有hlim参数包含在sklearn.ensemble.IsolationForest. 异常分数的计算仅基于每个点的深度和平均路径长度。调整一点的唯一方法是使用污染计算设置异常分数所需的阈值。

为了达到原始论文中给出的hlim=6用于检测小点集群的粒度,使用大量估计器可能会解决问题(仍然很大程度上取决于您如何将较小集群中的数据采样到大量估计器中)。但是,如果那个小数据集群的数量非常少,我认为这个想法是行不通的,并且从sklearn的当前实现中我们无能为力。希望这可以帮助。