数据挖掘 - 如何选择二进制离散化的最佳阈值 - 吾爱随笔录

数据挖掘机器学习数据特征工程特征

2022-03-13 00:01:10

我们知道我们通常对连续特征进行离散化以去除额外的信息和不需要的规律，这使得模型具有鲁棒性和良好的预测性。
但我想知道除了基于特征的上下文如何选择数据离散化、二进制或多的最佳阈值。

1个回答

通过不同数量的 bin检查该特征的直方图可能会有所帮助。数据分布没有明显变化的 bin的最大宽度可能是一个合适的选择。

其它你可能感兴趣的问题