自举 - 我需要先删除异常值吗?

机器算法验证 引导程序 异常值
2022-02-03 00:20:27

我们对新产品功能进行了拆分测试,并希望衡量收入的提升是否显着。我们的观察结果绝对不是正态分布的(我们的大多数用户不花钱,在那些花钱的人中,它严重偏向于许多小消费者和一些非常大的消费者)。

我们决定使用自举来比较方法,以解决数据不是正态分布的问题(附带问题:这是自举的合法使用吗?)

我的问题是,在我运行引导程序之前,我是否需要从数据集中剔除异常值(例如,少数非常大的消费者),或者这无关紧要吗?

2个回答

在解决这个问题之前,重要的是要承认“去除异常值”的统计弊端在许多应用统计教学法中被错误地公布了。传统上,异常值被定义为高杠杆、高影响力的观察。人们可以而且应该在数据分析中识别出此类观察结果,但仅凭这些条件并不能保证删除这些观察结果。“真正的异常值”是与实验设计的复制不一致的高杠杆/高影响观察。将观察视为这样需要对该人群的专业知识和“数据生成机制”背后的科学。最重要的方面是您应该能够先验识别潜在的异常值。

至于事物的自举方面,自举旨在模拟从抽样总体中独立、重复的抽取。如果您在分析计划中预先指定排除标准,您仍应将排除值保留在参考引导抽样分布中。这是因为您将考虑在对数据进行采样后应用排除导致的功率损失。但是,如果没有预先指定的排除标准,并且使用事后裁决删除异常值,正如我显然反对的那样,删除这些值将传播由删除异常值引起的相同推理错误。

考虑一项对 100 人的简单随机样本中的财富和幸福的研究。如果我们从字面上理解“1% 的人口拥有世界上 90% 的财富”这句话,那么平均而言,我们会观察到一个非常有影响力的价值。进一步假设,除了提供基本的生活质量之外,没有因收入增加而导致的过度幸福(非恒定线性趋势)。所以这个人也是高杠杆。

对纯数据拟合的最小二乘回归系数估计了这些数据中的总体平均一阶趋势。样本中的 1 个人的幸福感与接近中位数收入水平的人一致,这大大削弱了它。如果我们去掉这个个体,最小二乘回归斜率会大得多,但回归量的方差会减小,因此对关联的推断大致相同。这样做的困难在于我没有预先指定个人将被排除在外的条件。如果另一位研究人员复制了这一研究设计,他们将对一个高收入、中等快乐的人进行平均抽样,并获得与我的“修剪”结果不一致的结果。

如果我们先验地对中等收入幸福协会感兴趣,那么我们应该预先指定我们会,例如“比较家庭年收入低于 100,000 美元的个人”。所以去除异常值会导致我们估计一个我们无法描述的关联,因此 p 值是没有意义的。

另一方面,可以消除校准错误的医疗设备和可笑的自我报告调查谎言。在实际分析发生之前,排除标准描述得越准确,这种分析产生的结果就越有效和一致。

将其视为异常问题对我来说似乎是错误的。如果“< 10% 的用户完全消费”,则需要对该方面进行建模。Tobit 或 Heckman 回归将是两种可能性。