什么是折叠平均值?

机器算法验证 坡度
2022-03-24 02:48:01

以下是Owen Zhang的幻灯片分享。这张幻灯片正在讨论如何使用梯度提升来处理包含分类值(基数特征)的数据。我只想知道“非折叠平均”是什么意思。

在此处输入图像描述

1个回答

如此简洁明了的描述很难确定,但这里是他可能会得到的一个镜头。

假设您有一个非常高的基数特征具有一些可能的级别这些很难直接在模型中使用。从这样的预测器派生特征的一种方法是获取一些其他未用于训练的数据集,并计算由预测器确定的每个组内响应的平均值xl1,l2,,ln

xi=1#{xj=xi}xj=xiyi

然后你可以在学习器中使用这个的预测器,但是你已经将分类的许多二元特征简化为模型中的一个新特征。

有警告。首先,您绝对必须使用不接受训练的数据来计算组级平均值,否则您将尝试预测的内容直接泄漏到预测变量中,并且您的模型一文不值。其次,如果您希望您的模型解释任何事情,这是一种非常糟糕的方法,因为您的新预测器基本上说“y 发生在 x 上,因为 y 发生在 x 一些其他数据集上”。

如果您没有可用的数据集来计算组级平均值,那么一种非常有效的技术是将噪声添加到从您的训练数据计算的组级平均值中

xi=xj=xiyi+laplace(0,α)#{xj=xi}+laplace(0,α)

其中是从拉普拉斯分布产生的随机噪声该技术源自对差分隐私的研究。laplace(0,α)