所以我已经阅读了一些关于为什么应该始终避免分箱的帖子。该声明的流行参考是此链接。
主要的缺点是分箱点(或切割点)是相当随意的以及由此导致的信息丢失,并且应该首选样条曲线。
但是,我目前正在使用 Spotify API,该 API 对它们的一些功能有一系列持续的置信度度量。
查看一个功能“工具性”,参考文献指出:
预测轨道是否不包含人声。在这种情况下,“哦”和“啊”的声音被视为乐器。说唱或口语曲目显然是“声乐”。器乐性值越接近 1.0,轨道不包含人声内容的可能性就越大。高于 0.5 的值旨在表示乐器曲目,但当值接近 1.0 时,置信度会更高。
鉴于我的数据非常左偏分布(大约 90% 的样本勉强高于 0,我发现将此特征转换为两个分类特征是明智的:“仪器”(所有样本的值均高于 0.5)和“非仪器” "(对于值低于 0.5 的所有样本)。
这是错的吗?当我的几乎所有(连续)数据都围绕一个值旋转时,还有什么替代方案?根据我对样条曲线的了解,它们也不适用于分类问题(我正在做的事情)。