有关如何预处理数据和异常值以进行流失分析的提示

数据挖掘 数据挖掘 数据清理 数据科学模型
2022-01-31 20:58:51

我正在对电信流失数据集进行分析。我有 4617 个观察值和 17 个变量。我正在使用 Python。我有以下问题,

1)当I偏度和峰度进行正态性检验时,两个变量不是正态分布的(值超过1)。我应该对这两个变量还是整个数据集进行日志转换?

2)当我使用 IQR 方法检查异常值时,接近 700 个观察值是异常值。我不想删除异常值。我是否也应该应用对数转换来解决异常值?这是正确的方法吗?

3)我查了谷歌,他们说你可以通过取百分位值来限制异常值。处理异常值是一个好习惯吗?

4)我的最终目标是应用所有分类算法。我可以在对数转换后进行缩放吗?我们可以在对数转换后进行缩放吗?树模型没有异常值是可以的,但想为其他模型做。我的问题是我们可以在对数转换后构建模型还是需要进行缩放?

请指教。

1个回答

1)当变量遵循非正态分布时,您可以使用不同的变换使其正常,如果变量遵循偏态分布(正或负),您可以使用对数变换使其正常。

2)和3)不是总是通过异常值封顶方法去除异常值,这将有助于提高模型的性能。

4)在机器学习中,一些算法需要在建模之前对数据进行缩放。例如。聚类分析,主成分分析(PCA)。当变量的某些值与另一个变量的值相比太高时,我们可以使用缩放。(1,2,3,56,900,100,34,22,9) 在使用这种类型的算法时,总是去缩放而不是变换。