我目前正在阅读这篇关于隔离森林的论文。
在第3页,有一个隔离树的定义,有几句话我不明白:
给定来自 d 变量分布的 n 个实例的数据样本 X = {x1, ..., xn},为了构建隔离树 (iTree),我们通过随机选择属性 q 和拆分值 p 递归地划分 X , 直到:(i) 树达到高度限制,(ii) |X| = 1 或 (iii) X 中的所有数据具有相同的值。
在这里,我想了解第(ii)和(iii)点的含义。在第 (iii) 点中,当作者说“X 中的所有数据具有相同的值”时,是否意味着相同的异常分数?
还有一段文字我无法完全理解。有人可以帮我理解这段文字吗..
假设所有实例都是不同的,当 iTree 完全增长时,每个实例都与外部节点隔离,此时外部节点数为 n,内部节点数为 n-1;iTrees 的节点总数为 2n - 1
谢谢