如何找出一个变量对另一个变量/特征的贡献百分比?

数据挖掘 机器学习 数据挖掘 数据集 统计数据 数据
2022-02-15 14:24:15

我有一个月的电子商务数据集,由五列组成,其中第五列是“收入”。其他四列是收入的不同因素,例如“页面浏览量”、“访问者”、“跳出”和“点击率”。每行基本上是一个月中的特定日期(因此总共 30 行)。

那么,如果我想找出每个因素对收入的贡献/重要性,变量之间的相关值是否足够或是否有更好的指标?

2个回答

您可以尝试实施预测模型,如线性回归或决策树,然后使用该模型测量特征重要性。然而,衡量特征的重要性是一个模糊的概念。这个问题说明了特征重要性在回归模型中并不是简单地衡量的。本文展示了如何衡量决策树中特征的重要性。对我来说,这些只是线性相关性的更丰富的度量。距离相关性是另一种不需要预测模型的度量,并且比线性相关性更有意义。

要明确获得一个变量对另一个特征的贡献百分比,您可以取它们的(成对 Pearson)相关性并将其平方。那是一种变异的百分比,可以解释为另一种变异的百分比。(这是线性回归的 R 平方,如果您只是对另一个变量进行回归。)

同样,如果您想控制其他因素(例如,您想控制星期几),您可以只使用控制变量运行线性回归,然后使用这些控制变量和另一个预测变量。这些模型之间调整后的 R 平方的差异将是收入的变化有多少是由另一个预测变量解释的,超出了您的控制解释的范围,并且添加另一个变量会有轻微的过度拟合惩罚。