具有许多异常值的箱线图会影响结果吗?

数据挖掘 统计数据 描述性统计
2022-03-13 03:49:43

我正在使用 Haberman 的癌症生存数据集https://www.kaggle.com/gilsousa/habermans-survival-data-set 来绘制箱线图。这里 Surv_status 是具有两个类的目标变量, axil_nodes_det 是特征。我得到的情节如下,头等舱的异常值太多

哈布曼生存数据集的箱线图

我想知道更多的异常值是否会影响输出的预测

1个回答

正如评论所暗示的那样,将胡须之外的点视为“异常值”并不总是有帮助。您在这些箱线图中看到的是强烈的正偏斜。是的,一个严重倾斜的目标通常比一个不那么倾斜的目标更难预测。

传统的生存分析中,通常使用参数概率分布对这种偏斜数据建模,该分布自然会产生正偏斜数据和正偏斜数据,例如 Weibull 分布。

否则,您还可以尝试对生存时间进行Box-Cox反双曲正弦 (IHS)变换以减少偏斜。

为了可视化严重偏斜的数据,您可以应用上述减少偏斜的转换之一,或使用具有R 实现的“调整后的”箱线图