我正在对电信流失数据集进行分析。我有 4617 个观察值和 17 个变量。我正在使用 Python。我有以下问题,
1)当I偏度和峰度进行正态性检验时,两个变量不是正态分布的(值超过1)。我应该对这两个变量还是整个数据集进行日志转换?
2)当我使用 IQR 方法检查异常值时,接近 700 个观察值是异常值。我不想删除异常值。我是否也应该应用对数转换来解决异常值?这是正确的方法吗?
3)我查了谷歌,他们说你可以通过取百分位值来限制异常值。处理异常值是一个好习惯吗?
4)我的最终目标是应用所有分类算法。我可以在对数转换后进行缩放吗?我们可以在对数转换后进行缩放吗?树模型没有异常值是可以的,但想为其他模型做。我的问题是我们可以在对数转换后构建模型还是需要进行缩放?
请指教。