为了考虑样本量,有哪些可能的技术可以在非常大的类别中平滑比例?这里感兴趣的应用是将比例用作预测模型的输入,但在证据很少且我不想过度拟合的情况下,我对使用原始比例持谨慎态度。
下面是一个示例,其中 ID 表示客户,impressions 和 clicks 分别是显示的广告数量和客户进行的点击次数。

为了考虑样本量,有哪些可能的技术可以在非常大的类别中平滑比例?这里感兴趣的应用是将比例用作预测模型的输入,但在证据很少且我不想过度拟合的情况下,我对使用原始比例持谨慎态度。
下面是一个示例,其中 ID 表示客户,impressions 和 clicks 分别是显示的广告数量和客户进行的点击次数。

一个简单的方法是考虑拉普拉斯平滑(http://en.wikipedia.org/wiki/Additive_smoothing)或类似的东西。
基本上,不是将响应率计算为 (Clicks)/(Impressions),而是计算 (Clicks + X)/(Impressions + Y),例如选择 X 和 Y,这样 X/Y 是点击的全球平均值/印象。
当 Clicks 和 Impressions 都很高时,这个平滑的响应率基本上等于真实响应率(信号占先验)。当点击次数和展示次数都较低时,此平滑响应率将接近全球平均响应率 - 当您的数据很少并且不想对其施加太大影响时,这是一个很好的猜测!
X 和 Y 的绝对比例将决定您认为“足够数据”的数据点数。有人认为,正确的做法是将 X 设置为 1,并且 Y 适当地考虑了这一点。