机器算法验证 - 为什么要不惜一切代价避免分箱？ - 吾爱随笔录

为什么要不惜一切代价避免分箱？

机器算法验证分类分类数据连续数据样条分箱

2022-02-27 01:01:47

所以我已经阅读了一些关于为什么应该始终避免分箱的帖子。该声明的流行参考是此链接。

主要的缺点是分箱点（或切割点）是相当随意的以及由此导致的信息丢失，并且应该首选样条曲线。

但是，我目前正在使用 Spotify API，该 API 对它们的一些功能有一系列持续的置信度度量。

查看一个功能“工具性”，参考文献指出：

预测轨道是否不包含人声。在这种情况下，“哦”和“啊”的声音被视为乐器。说唱或口语曲目显然是“声乐”。器乐性值越接近 1.0，轨道不包含人声内容的可能性就越大。高于 0.5 的值旨在表示乐器曲目，但当值接近 1.0 时，置信度会更高。

鉴于我的数据非常左偏分布（大约 90% 的样本勉强高于 0，我发现将此特征转换为两个分类特征是明智的：“仪器”（所有样本的值均高于 0.5）和“非仪器” "（对于值低于 0.5 的所有样本）。

这是错的吗？当我的几乎所有（连续）数据都围绕一个值旋转时，还有什么替代方案？根据我对样条曲线的了解，它们也不适用于分类问题（我正在做的事情）。

4个回答

说应该不惜一切代价避免分箱有点夸张，但分箱引入的分箱选择无疑会给分析带来一些随意性。使用现代统计方法，通常不需要进行分箱，因为可以对离散的“分箱”数据进行的任何操作通常都可以对基础连续值进行。

统计中“分箱”最常见的用途是构建直方图。直方图类似于一般类别的核密度估计器 (KDE)，因为它们涉及对所选 bin 的阶跃函数的聚合，而 KDE 涉及更平滑核的聚合。直方图中使用的阶跃函数不是平滑函数，通常情况下，可以选择更好的核函数，在 KDE 方法下不那么随意，这也可以更好地估计数据的基础密度。我经常告诉学生，直方图只是“穷人的 KDE”，因为它涉及任意 bin 选择并且不能给出平滑的密度估计。（正如评论中所指出的，直方图实际上并不是 KDE 的特例；

当分析人员希望将连续数据离散化到 bin 中以使用使用离散值的分析技术时，“binning”的另一个常见用途是。这似乎是您引用的关于人声预测的部分中所建议的内容。在这种情况下，分箱会引入一些任意性，并且还会丢失信息。如果可能，最好还是避免这种情况，方法是尝试直接在基础连续值上形成模型，而不是在离散化的“分箱”值上形成模型。

作为一般规则，统计学家最好避免引入任意假设的分析技术，特别是在有替代技术可以轻松避免这些假设的情况下。所以我同意分箱通常是不必要的观点。当然不应该不惜一切代价避免它，因为成本很重要，但是当有简单的替代技术可以避免它而没有任何严重的不便时，通常应该避免它。我的建议是学习应用于基础连续数据的分析方法，然后您将能够确定在给定情况下是否需要通过分箱进行粗略近似。

我通常会强烈反对对连续变量进行分类，原因是其他著名的弗兰克·哈雷尔 (Frank Harrell) 充分表达的原因。在这种情况下，询问自己生成分数的过程可能会有所帮助。看起来大多数分数实际上为零，可能还添加了一些噪音。他们中的一些人在噪音中再次接近统一。很少有人介于两者之间。在这种情况下，分类似乎更有理由，因为有人可能会争辩说，将噪声取模，这是一个二元变量。如果确实将其作为连续变量拟合，则系数在预测变量的变化方面将具有意义，但在这种情况下，在其大部分范围内，该变量的人口非常稀少，因此似乎没有吸引力。

想象一下，你有一块只显示小时的手表。仅我的意思是它只有一个小时箭头，每小时一次使 1/12 跳到另一个小时，它移动不顺畅。这样的时钟不会很有用，因为你不知道现在是两点五分，两点半，还是十点三分。这就是分箱数据的问题，它丢失了细节并引入了“跳跃”的变化。

对于某些应用程序，显然包括您正在考虑的应用程序，分箱可能是绝对必要的。显然，要执行分类问题，有时您必须从模型中提取分类数据，除非您的输入也都是分类的，否则您将需要执行分箱。考虑一个例子：

一个复杂的人工智能正在玩扑克。它评估了其手牌优于其他玩家手牌的可能性为 70%。轮到它下注了，但是有人告诉它应该不惜一切代价避免分箱，因此永远不要下注；它默认折叠。

但是，您所听到的很可能是真的，因为过早地对中间值进行分箱会放弃本来可以保留的信息。如果您项目的最终目的是确定您是否会“喜欢”所讨论的歌曲，这可能由两个因素决定：“乐器”和“摇滚”，那么您最好将它们保留为连续变量，直到您需要将“喜好”作为分类变量提取出来。

l i k e = {\begin{cases} 0 & r o c k i t u d e * 3 + i n s t r u m e n t a l n e s s * 2 < 3 \\ 1 & r o c k i t u d e * 3 + i n s t r u m e n t a l n e s s * 2 \geq 3 \end{cases}

$\mathrm{like} = \begin{cases} 0 & \mathrm{rockitude} * 3 + \mathrm{instrumentalness} * 2 < 3 \\ 1 & \mathrm{rockitude} * 3 + \mathrm{instrumentalness} * 2 \ge 3 \end{cases}$

或您认为最合适的任何系数，或任何其他适合您的训练集的模型。

相反，如果您决定某件事是“乐器”（真或假）和“摇滚”（真或假），那么您将有 4 个类别摆在您面前：

器乐, 摇滚
非乐器，岩石
器乐，无摇滚
非乐器，没有岩石

但接下来你要做的就是决定你“喜欢”这 4 个类别中的哪一个。您在最终决定中放弃了灵活性。

装箱或不装箱的决定完全取决于您的目标。祝你好运。

其它你可能感兴趣的问题

上一篇可以用作深度学习中的激活吗？罪( × )sin⁡(x) 下一篇基于树的回归能否比普通线性回归表现更差？