由于分箱过程,连续特征离散化通常会导致信息丢失。然而,Kaggle Titanic 的大多数顶级解决方案都是基于离散化(年龄、票价)。
什么时候应该离散连续特征?是否有任何关于准确性的标准和利弊。
由于分箱过程,连续特征离散化通常会导致信息丢失。然而,Kaggle Titanic 的大多数顶级解决方案都是基于离散化(年龄、票价)。
什么时候应该离散连续特征?是否有任何关于准确性的标准和利弊。
离散连续特征的一个原因是提高信噪比。将模型拟合到 bin 可以减少数据中的小波动对模型的影响,通常小波动只是噪音。每个 bin 都“平滑”了数据部分中的波动/噪声。
我可以想到离散化可能有助于解决某些问题的三个原因。
将诸如年龄之类的连续变量离散为有意义的组时可以更好地理解:婴儿、青少年、年轻人、成年人、老年人……这在营销领域很常见,因为少数年份在营销领域并没有太大的不同。一个人的利益。
再举一个例子,在处理具有 GPS 位置的数据集时,将它们离散化为国家/州位置可能更有用。
连续特征可能与您的目标不是线性相关,但具有更复杂的非线性相关性。在这种情况下,获得对此类功能的可解释解释并不容易。但是,如果您将其离散为一组组或级别,您可能会发现其中一些与您的目标相关(或反相关),从而为您提供一些可解释性。
一些机器学习模型和特征选择方法不能处理连续特征,例如基于熵的方法,或者决策树或神经网络的一些变体。您要么离散化您的特征,要么忘记使用此类模型。