数据挖掘 - 连续特征离散化的基本原理是什么？什么时候应该做？ - 吾爱随笔录

数据挖掘机器学习统计数据特征选择算法特征提取

2021-09-30 14:19:39

由于分箱过程，连续特征离散化通常会导致信息丢失。然而，Kaggle Titanic 的大多数顶级解决方案都是基于离散化（年龄、票价）。

什么时候应该离散连续特征？是否有任何关于准确性的标准和利弊。

2个回答

离散连续特征的一个原因是提高信噪比。将模型拟合到 bin 可以减少数据中的小波动对模型的影响，通常小波动只是噪音。每个 bin 都“平滑”了数据部分中的波动/噪声。

我可以想到离散化可能有助于解决某些问题的三个原因。

这对你的问题有意义

将诸如年龄之类的连续变量离散为有意义的组时可以更好地理解：婴儿、青少年、年轻人、成年人、老年人……这在营销领域很常见，因为少数年份在营销领域并没有太大的不同。一个人的利益。

再举一个例子，在处理具有 GPS 位置的数据集时，将它们离散化为国家/州位置可能更有用。

连续特征可能与您的目标不是线性相关，但具有更复杂的非线性相关性。在这种情况下，获得对此类功能的可解释解释并不容易。但是，如果您将其离散为一组组或级别，您可能会发现其中一些与您的目标相关（或反相关），从而为您提供一些可解释性。

一些机器学习模型和特征选择方法不能处理连续特征，例如基于熵的方法，或者决策树或神经网络的一些变体。您要么离散化您的特征，要么忘记使用此类模型。

其它你可能感兴趣的问题