什么是“参数收敛”?

数据挖掘 机器学习 决策树 参数估计
2022-02-15 09:21:28

我正在尝试自学数据科学,我特别感兴趣的是决策树。走了几步,我遇到了一个术语,“参数收敛”,我找不到它的定义(因为毕竟,我是自己学习,没有机会接触老师或同龄人):

然而,即使在预测变量数量少得多的研究中,所有感兴趣的主要和交互效应的组合——尤其是在分类预测变量的情况下——很可能导致细胞计数过于稀疏而无法收敛(来自Strobl 等人,2009 年

网络搜索并没有太大帮助,因为收敛是一个常见的术语,我不确定哪些结果特别适用于决策树的上下文。而且,结果不提供入门级定义。

因此,虽然参数收敛的定义或解释(在递归分区的上下文中)会很好,但将其定向到可能具有此术语和类似术语的“词汇表”的资源(学术或其他)也会很方便...

2个回答

参数收敛的一个简单定义是当参数的权重或值渐近到达一个点时。我的意思是,当您的模型训练没有改变参数值(可能小于 epsilon-small 值)时,它可能很合适。对于决策树,我发现这篇论文解释了收敛速度等等。如果您想了解更多详细信息,这可能是一本好书。

许多 ML 和最小化任务都使用目标函数。在每次迭代中,定义了要尝试的参数集,并且目标函数返回一些评分值,该值反映了该参数集的好坏。然后更改参数集,并重复该过程。

那么,你什么时候停止这个过程呢?当适合的变化(越来越接近局部或全局最小值)变得可以接受时,您想停止。什么是可以接受的?这取决于您,但部分受梯度形式或误差空间的影响。有指导方针,许多算法默认内置这些指导方针。

作为一组,这些停止规则包括收敛标准。当算法收敛时,它找到了满足您要求的参数集。它有很多失败的方法,特别是如果在某个最大迭代次数内找不到合适的参数集时。相反,您可以设置不合理的停止标准,这将导致在参数非常差的情况下收敛。