决策树学习算法是确定性的吗?

人工智能 决策树 随机森林 id3-算法 c4.5-算法
2021-11-01 22:44:51

决策树学习算法是确定性的吗?给定一个固定的数据集,它们是否总是生成具有相同结构的树?

随机森林呢?

1个回答

决策树学习算法是确定性的吗?给定一个固定的数据集,它们是否总是生成具有相同结构的树?

一般来说,是的。大多数决策树学习器,如常见的 ID3 和 C4.5/C5.0 算法,都是确定性的。在每一步,学习者都会考虑所有尚未用于拆分数据的可能特征,并找到最大化某些功能(例如信息增益)的拆分。这个过程没有随机性(或伪随机性)。

例外情况是,如果您使用随机性来打破平局(而不是像通常那样使用每个特征的索引),但这将是一个不寻常的修改。随机森林呢?

顾名思义,随机森林确实利用了随机性,或者至少是伪随机性。如果我们只关心算法在通常意义上(至少在计算机科学中)是否是确定性的,那么答案是否定的。

如果您在两个不同的时间使用相同的数据集启动相同的随机森林学习算法(或者,为您的伪随机数生成器使用两个不同的种子),您将获得两个不同的森林。这是因为该算法会随机选择要学习的特征和/或数据点的子集,并且如果使用不同的种子,则子集每次都会不同。