数据挖掘 - 具有许多异常值的箱线图会影响结果吗？ - 吾爱随笔录

具有许多异常值的箱线图会影响结果吗？

数据挖掘统计数据描述性统计

2022-03-13 03:49:43

我正在使用 Haberman 的癌症生存数据集https://www.kaggle.com/gilsousa/habermans-survival-data-set 来绘制箱线图。这里 Surv_status 是具有两个类的目标变量， axil_nodes_det 是特征。我得到的情节如下，头等舱的异常值太多

我想知道更多的异常值是否会影响输出的预测

1个回答

正如评论所暗示的那样，将胡须之外的点视为“异常值”并不总是有帮助。您在这些箱线图中看到的是强烈的正偏斜。是的，一个严重倾斜的目标通常比一个不那么倾斜的目标更难预测。

在传统的生存分析中，通常使用参数概率分布对这种偏斜数据建模，该分布自然会产生正偏斜数据和正偏斜数据，例如 Weibull 分布。

否则，您还可以尝试对生存时间进行Box-Cox或反双曲正弦 (IHS)变换以减少偏斜。

为了可视化严重偏斜的数据，您可以应用上述减少偏斜的转换之一，或使用具有R 实现的“调整后的”箱线图。

其它你可能感兴趣的问题

上一篇计算 ConvLSTM2D 层的参数数量下一篇AR(max=1) 是什么意思？