我的数据中有一些连续变量,我希望对其应用分箱。值的范围从 0 到 800,但我的动机是数据分布偏斜,如下图所示:

然而,我已经阅读了这个关于分箱数据的惊人博客,作者声称这adaptive binning比fixed-width binning. 我理解这背后的想法,因为我们在固定宽度方法中定义的一些 bin 与其他 bin 相比可能具有太少的数据分布,这将不是一个公平的游戏,而自适应方法的动机是的想法quantiles更好。这个假设还有更多的论据,或更深入的分析吗?
我的数据中有一些连续变量,我希望对其应用分箱。值的范围从 0 到 800,但我的动机是数据分布偏斜,如下图所示:

然而,我已经阅读了这个关于分箱数据的惊人博客,作者声称这adaptive binning比fixed-width binning. 我理解这背后的想法,因为我们在固定宽度方法中定义的一些 bin 与其他 bin 相比可能具有太少的数据分布,这将不是一个公平的游戏,而自适应方法的动机是的想法quantiles更好。这个假设还有更多的论据,或更深入的分析吗?
我看了一下那个链接。这是非常有用的。如您所知,该cut函数用于专门定义 bin 边缘。无法保证每个 bin 中的项目分布。事实上,您可以通过以下方式定义箱:箱中不包含任何物品或几乎所有物品都在单个箱中。qcut功能略有不同。该qcut函数尝试将基础数据分成大小相等的 bin。该函数使用基于数据分布的百分位数定义 bin,而不是 bin 的实际数字边缘。总之,如果您希望在您的垃圾箱中平均分配物品,请使用qcut. 如果要定义自己的数字 bin 范围,请使用cut.
有关详细信息,请参阅下面的链接。