数据挖掘 - 如何找出一个变量对另一个变量/特征的贡献百分比？ - 吾爱随笔录

如何找出一个变量对另一个变量/特征的贡献百分比？

数据挖掘机器学习数据挖掘数据集统计数据数据

2022-02-15 14:24:15

我有一个月的电子商务数据集，由五列组成，其中第五列是“收入”。其他四列是收入的不同因素，例如“页面浏览量”、“访问者”、“跳出”和“点击率”。每行基本上是一个月中的特定日期（因此总共 30 行）。

那么，如果我想找出每个因素对收入的贡献/重要性，变量之间的相关值是否足够或是否有更好的指标？

2个回答

您可以尝试实施预测模型，如线性回归或决策树，然后使用该模型测量特征重要性。然而，衡量特征的重要性是一个模糊的概念。这个问题说明了特征重要性在回归模型中并不是简单地衡量的。本文展示了如何衡量决策树中特征的重要性。对我来说，这些只是线性相关性的更丰富的度量。距离相关性是另一种不需要预测模型的度量，并且比线性相关性更有意义。

要明确获得一个变量对另一个特征的贡献百分比，您可以取它们的（成对 Pearson）相关性并将其平方。那是一种变异的百分比，可以解释为另一种变异的百分比。（这是线性回归的 R 平方，如果您只是对另一个变量进行回归。）

同样，如果您想控制其他因素（例如，您想控制星期几），您可以只使用控制变量运行线性回归，然后使用这些控制变量和另一个预测变量。这些模型之间调整后的 R 平方的差异将是收入的变化有多少是由另一个预测变量解释的，超出了您的控制解释的范围，并且添加另一个变量会有轻微的过度拟合惩罚。

其它你可能感兴趣的问题

上一篇ggplot aes() 选择下一篇提高 TensorFlow CNN 的测试准确性