在经典统计中,混杂变量是一个关键概念,因为它会扭曲我们对输入变量和结果变量关系的看法。在统计学中寻求多种形式的控制和调整来消除、避免或最小化混杂的影响。例如,预期的混杂变量(即年龄和性别)通常包含在分析中,在最终模型中,您感兴趣的解释变量(即治疗)的系数随后会针对混杂因素(即年龄和性别)进行调整。
混淆并不是机器学习和预测分析中经常出现的话题。我想知道混淆可能(或可能不会)在机器学习算法中发挥重要作用。混杂是否可能影响样本外准确性的准确性?在选择机器学习中的特征时,包括或不包括预期的混杂变量是否起到重要的考虑作用?