我们知道我们通常对连续特征进行离散化以去除额外的信息和不需要的规律,这使得模型具有鲁棒性和良好的预测性。
但我想知道除了基于特征的上下文如何选择数据离散化、二进制或多的最佳阈值。
如何选择二进制离散化的最佳阈值
数据挖掘
机器学习
数据
特征工程
特征
2022-03-13 00:01:10
1个回答
通过不同数量的 bin检查该特征的直方图可能会有所帮助。数据分布没有明显变化的 bin的最大宽度可能是一个合适的选择。