我正在使用 Haberman 的癌症生存数据集https://www.kaggle.com/gilsousa/habermans-survival-data-set 来绘制箱线图。这里 Surv_status 是具有两个类的目标变量, axil_nodes_det 是特征。我得到的情节如下,头等舱的异常值太多
我想知道更多的异常值是否会影响输出的预测
我正在使用 Haberman 的癌症生存数据集https://www.kaggle.com/gilsousa/habermans-survival-data-set 来绘制箱线图。这里 Surv_status 是具有两个类的目标变量, axil_nodes_det 是特征。我得到的情节如下,头等舱的异常值太多
我想知道更多的异常值是否会影响输出的预测
正如评论所暗示的那样,将胡须之外的点视为“异常值”并不总是有帮助。您在这些箱线图中看到的是强烈的正偏斜。是的,一个严重倾斜的目标通常比一个不那么倾斜的目标更难预测。
在传统的生存分析中,通常使用参数概率分布对这种偏斜数据建模,该分布自然会产生正偏斜数据和正偏斜数据,例如 Weibull 分布。
否则,您还可以尝试对生存时间进行Box-Cox或反双曲正弦 (IHS)变换以减少偏斜。