数据挖掘 - 固定宽度与自适应分箱 - 吾爱随笔录

固定宽度与自适应分箱

数据挖掘机器学习数据挖掘数据集数据数据清理

2022-02-24 17:58:53

我的数据中有一些连续变量，我希望对其应用分箱。值的范围从 0 到 800，但我的动机是数据分布偏斜，如下图所示：

然而，我已经阅读了这个关于分箱数据的惊人博客，作者声称这adaptive binning比fixed-width binning. 我理解这背后的想法，因为我们在固定宽度方法中定义的一些 bin 与其他 bin 相比可能具有太少的数据分布，这将不是一个公平的游戏，而自适应方法的动机是的想法quantiles更好。这个假设还有更多的论据，或更深入的分析吗？

1个回答

我看了一下那个链接。这是非常有用的。如您所知，该cut函数用于专门定义 bin 边缘。无法保证每个 bin 中的项目分布。事实上，您可以通过以下方式定义箱：箱中不包含任何物品或几乎所有物品都在单个箱中。qcut功能略有不同。该qcut函数尝试将基础数据分成大小相等的 bin。该函数使用基于数据分布的百分位数定义 bin，而不是 bin 的实际数字边缘。总之，如果您希望在您的垃圾箱中平均分配物品，请使用qcut. 如果要定义自己的数字 bin 范围，请使用cut.

有关详细信息，请参阅下面的链接。

https://pbpython.com/pandas-qcut-cut.html

其它你可能感兴趣的问题

上一篇LIME 和 SHAP 可能不符合直觉的原因下一篇了解正交回归