通常情况下,统计分析师会收到一组数据集,并要求他们使用线性回归等技术拟合模型。数据集经常伴随着类似于“哦,是的,我们搞砸了收集其中一些数据点——尽你所能”的免责声明。
这种情况导致回归拟合受到可能是错误数据的异常值的严重影响。鉴于以下情况:
从科学和道德的角度来看,无缘无故丢弃数据是很危险的,因为它“使拟合看起来很糟糕”。
在现实生活中,收集数据的人经常无法回答诸如“在生成这个数据集时,你到底把哪些点搞砸了?”之类的问题。
哪些统计检验或经验法则可用作线性回归分析中排除异常值的基础?
多线性回归有什么特别的考虑吗?