我的数据(连续)高度偏斜,不符合正态分布。使用sns.distplot我发现exponweib更适合数据。
如何处理?
我的最终目标是将数据用于机器学习模型 (SVM)。
我的数据(连续)高度偏斜,不符合正态分布。使用sns.distplot我发现exponweib更适合数据。
如何处理?
我的最终目标是将数据用于机器学习模型 (SVM)。
要解决偏斜数据,您可以进行数据转换,例如对数转换、平方转换等。
或者,您可以尝试不假设 x 变量的正态性的非参数机器学习算法。
希望这会有所帮助....
有几种技术可以处理这些数据,例如:
您可以继续进行,而不必担心缺少正常数据。去运行你的 SVM。
即使在线性回归中,关于正态性的常见假设也与误差项有关。此外,该假设不是预测的一部分。高斯-马尔可夫定理不假设一个正态误差项,所以无论误差项是否正常,参数估计都是最好的线性无偏估计量。
当我们确实对正常误差项做出假设时,那是为了帮助我们进行参数推断,而不是预测。
不过,那是在响应变量的一边。对于预测变量,我们绝对不对正态性做出任何假设,甚至对参数推断也不做任何假设。
因此,请随意运行您的 SVM,而不必担心您的数据缺乏正态分布。
这似乎与您的特定场景非常相关。
https://scikit-learn.org/stable/auto_examples/svm/plot_separating_hyperplane_unbalanced.html
还要考虑预处理选项。1) 重新调整数据 2) 标准化数据 3) 标准化数据
有关执行这些操作的一些(非常简单的)方法,请参见下面的链接。
https://machinelearningmastery.com/prepare-data-machine-learning-python-scikit-learn/
应该这样做!!