机器学习预测中的混杂变量?

机器算法验证 机器学习 预测模型 描述性统计 偏见 混杂
2022-02-05 03:21:01

在经典统计中,混杂变量是一个关键概念,因为它会扭曲我们对输入变量和结果变量关系的看法。在统计学中寻求多种形式的控制和调整来消除、避免或最小化混杂的影响。例如,预期的混杂变量(即年龄和性别)通常包含在分析中,在最终模型中,您感兴趣的解释变量(即治疗)的系数随后会针对混杂因素(即年龄和性别)进行调整。

混淆并不是机器学习和预测分析中经常出现的话题。我想知道混淆可能(或可能不会)在机器学习算法中发挥重要作用。混杂是否可能影响样本外准确性的准确性?在选择机器学习中的特征时,包括或不包括预期的混杂变量是否起到重要的考虑作用?

4个回答

混杂在统计学中起着重要作用,因为我们正在寻找确定一组变量对另一个变量的确切影响。如果混淆变量被排除在统计模型之外,那么为包含的变量测量的效果可能会出现偏差。

在进行预测时,混淆并不是一个大问题,因为我们不关心确定一个变量对另一个变量的确切影响。我们只是想找出给定一组预测变量的因变量的“最可能”值是多少。

例如,假设我们想估计一个人的年龄在多大程度上影响他们的薪水。所以我们可以估计模型: 很可能是正的并且相当大,因为老年人往往有更多的教育和更多的工作经验。因此,如果我们希望确定年龄和薪水之间的联系,我们可能应该控制这些混杂因素,估计模型: 很有可能并且

salaryi=β0+β1agei+εi.
β1
salaryi=β0+β1agei+β2educationi+β3experiencei+εi.
β1<β1β1将是一个更好的估计年龄对收入的纯粹影响的指标。也就是说,在“改变某人的年龄并保持其他一切不变”的意义上。然而,由于年龄与教育和经验高度相关,第一个模型可能足以预测一个人的薪水。

当混杂关系发生变化时,混杂是一个预测问题。这是生产中 ML 模型的常见问题。例如,看看我们可以从谷歌流感趋势的史诗般失败中学到什么

另一个常见问题是反馈循环。例如,Google 会根据预测的响应可能性来展示广告结果,但在列表中的位置会影响点击率。 机器学习中的因果关系

控制混杂的唯一方法是随机化,因为它将平衡已测量和未测量的混杂。分析级别的任何调整都只是试图尽量减少测量的混杂(匹配、限制、G 方法......),但不能消除它。因此,如果练习的目标只是预测而不试图操纵结果,也就是预测目标,那么你不需要关心混淆。但是,如果您想要一个预测模型,您将使用该模型通过操纵预测变量来改变结果,那么这是一个更具挑战性的目标,因为在这种情况下,您需要针对混杂因素进行调整。我能提供的最简单的例子是:冰淇淋销量的增加将是晒伤发生率增加的一个很好的预测指标。然而,如果你想改变晒伤的发生率,禁止冰淇淋销售将无济于事。一旦你控制了混杂因素(夏日阳光),冰淇淋销售之间的统计联系就消失了(因为它是统计联系,而不是因果联系)。现在将直观的变量(冰淇淋销售、晒伤和温暖的天气)更改为非直观变量(例如血液中的生物标志物 1、癌症风险以及我们甚至不知道存在的混杂因素),您就会明白更好的是,为什么没有随机化我们会处于一种有偏见的情况,这种情况甚至难以量化,但方向也是如此。

混杂变量可能导致不相关的数量看起来是相关的。

想象一下,您想检查喝红酒是否对您的心脏有益。你出去调查一群人,以了解 a)他们喝了多少红酒和 b)某种心脏健康指标。

当您这样做并在图表上绘制数据时,您可能会发现存在明显的负相关。然后你得出结论:

WineCardiac Health

惊人的!所以喝红酒可以让你的心脏健康,我应该多喝!

但是等等,我们学到的只是“喝更多酒的人往往有更健康的心脏。”

如果收入是一个混杂变量并影响葡萄酒消费和健康怎么办:

  • 有钱人喜欢喝更多的酒。
  • 富有的人往往拥有更好的医疗保健。

为了正确解开这些变量并找出真实故事,我们需要使用因果推理(或因果发现)来确定葡萄酒消费是否对心脏健康的影响超出了个人财富的影响。

根据您通过对混杂因素的因果方法所学到的知识,您可以尝试将 ML 算法限制为仅使用因果图中的变量。

如果您有线性模型,您还可以将模型系数限制为正/负,并确保您的模型与发现的图一致。