为什么要不惜一切代价避免分箱?

机器算法验证 分类 分类数据 连续数据 样条 分箱
2022-02-27 01:01:47

所以我已经阅读了一些关于为什么应该始终避免分箱的帖子。该声明的流行参考是此链接

主要的缺点是分箱点(或切割点)是相当随意的以及由此导致的信息丢失,并且应该首选样条曲线。

但是,我目前正在使用 Spotify API,该 API 对它们的一些功能有一系列持续的置信度度量。

查看一个功能“工具性”,参考文献指出:

预测轨道是否不包含人声。在这种情况下,“哦”和“啊”的声音被视为乐器。说唱或口语曲目显然是“声乐”。器乐性值越接近 1.0,轨道不包含人声内容的可能性就越大。高于 0.5 的值旨在表示乐器曲目,但当值接近 1.0 时,置信度会更高。

鉴于我的数据非常左偏分布(大约 90% 的样本勉强高于 0,我发现将此特征转换为两个分类特征是明智的:“仪器”(所有样本的值均高于 0.5)和“非仪器” "(对于值低于 0.5 的所有样本)。

这是错的吗?当我的几乎所有(连续)数据都围绕一个值旋转时,还有什么替代方案?根据我对样条曲线的了解,它们也不适用于分类问题(我正在做的事情)。

4个回答

说应该不惜一切代价避免分箱有点夸张,但分箱引入的分箱选择无疑会给分析带来一些随意性。使用现代统计方法,通常不需要进行分箱,因为可以对离散的“分箱”数据进行的任何操作通常都可以对基础连续值进行。

统计中“分箱”最常见的用途是构建直方图。直方图类似于一般类别的核密度估计器 (KDE),因为它们涉及对所选 bin 的阶跃函数的聚合,而 KDE 涉及更平滑核的聚合。直方图中使用的阶跃函数不是平滑函数,通常情况下,可以选择更好的核函数,在 KDE 方法下不那么随意,这也可以更好地估计数据的基础密度。我经常告诉学生,直方图只是“穷人的 KDE”,因为它涉及任意 bin 选择并且不能给出平滑的密度估计。(正如评论中所指出的,直方图实际上并不是 KDE 的特例;

当分析人员希望将连续数据离散化到 bin 中以使用使用离散值的分析技术时,“binning”的另一个常见用途是。这似乎是您引用的关于人声预测的部分中所建议的内容。在这种情况下,分箱会引入一些任意性,并且还会丢失信息。如果可能,最好还是避免这种情况,方法是尝试直接在基础连续值上形成模型,而不是在离散化的“分箱”值上形成模型。

作为一般规则,统计学家最好避免引入任意假设的分析技术,特别是在有替代技术可以轻松避免这些假设的情况下。所以我同意分箱通常是不必要的观点。当然不应该不惜一切代价避免它,因为成本很重要,但是当有简单的替代技术可以避免它而没有任何严重的不便时,通常应该避免它。我的建议是学习应用于基础连续数据的分析方法,然后您将能够确定在给定情况下是否需要通过分箱进行粗略近似。

我通常会强烈反对对连续变量进行分类,原因是其他著名的弗兰克·哈雷尔 (Frank Harrell) 充分表达的原因。在这种情况下,询问自己生成分数的过程可能会有所帮助。看起来大多数分数实际上为零,可能还添加了一些噪音。他们中的一些人在噪音中再次接近统一。很少有人介于两者之间。在这种情况下,分类似乎更有理由,因为有人可能会争辩说,将噪声取模,这是一个二元变量。如果确实将其作为连续变量拟合,则系数在预测变量的变化方面将具有意义,但在这种情况下,在其大部分范围内,该变量的人口非常稀少,因此似乎没有吸引力。

想象一下,你有一块只显示小时的手表。仅我的意思是它只有一个小时箭头,每小时一次使 1/12 跳到另一个小时,它移动不顺畅。这样的时钟不会很有用,因为你不知道现在是两点五分,两点半,还是十点三分。这就是分箱数据的问题,它丢失了细节并引入了“跳跃”的变化。

对于某些应用程序,显然包括您正在考虑的应用程序,分箱可能是绝对必要的。显然,要执行分类问题,有时您必须从模型中提取分类数据,除非您的输入也都是分类的,否则您将需要执行分箱。考虑一个例子:

一个复杂的人工智能正在玩扑克。它评估了其手牌优于其他玩家手牌的可能性为 70%。轮到它下注了,但是有人告诉它应该不惜一切代价避免分箱,因此永远不要下注;它默认折叠。

但是,您所听到的很可能是真的,因为过早地对中间值进行分箱会放弃本来可以保留的信息。如果您项目的最终目的是确定您是否会“喜欢”所讨论的歌曲,这可能由两个因素决定:“乐器”和“摇滚”,那么您最好将它们保留为连续变量,直到您需要将“喜好”作为分类变量提取出来。

like={0rockitude3+instrumentalness2<31rockitude3+instrumentalness23

或您认为最合适的任何系数,或任何其他适合您的训练集的模型。

相反,如果您决定某件事是“乐器”(真或假)和“摇滚”(真或假),那么您将有 4 个类别摆在您面前:

  1. 器乐, 摇滚
  2. 非乐器,岩石
  3. 器乐,无摇滚
  4. 非乐器,没有岩石

但接下来你要做的就是决定你“喜欢”这 4 个类别中的哪一个。您在最终决定中放弃了灵活性。

装箱或不装箱的决定完全取决于您的目标。祝你好运。