我有一个月的电子商务数据集,由五列组成,其中第五列是“收入”。其他四列是收入的不同因素,例如“页面浏览量”、“访问者”、“跳出”和“点击率”。每行基本上是一个月中的特定日期(因此总共 30 行)。
那么,如果我想找出每个因素对收入的贡献/重要性,变量之间的相关值是否足够或是否有更好的指标?
我有一个月的电子商务数据集,由五列组成,其中第五列是“收入”。其他四列是收入的不同因素,例如“页面浏览量”、“访问者”、“跳出”和“点击率”。每行基本上是一个月中的特定日期(因此总共 30 行)。
那么,如果我想找出每个因素对收入的贡献/重要性,变量之间的相关值是否足够或是否有更好的指标?
要明确获得一个变量对另一个特征的贡献百分比,您可以取它们的(成对 Pearson)相关性并将其平方。那是一种变异的百分比,可以解释为另一种变异的百分比。(这是线性回归的 R 平方,如果您只是对另一个变量进行回归。)
同样,如果您想控制其他因素(例如,您想控制星期几),您可以只使用控制变量运行线性回归,然后使用这些控制变量和另一个预测变量。这些模型之间调整后的 R 平方的差异将是收入的变化有多少是由另一个预测变量解释的,超出了您的控制解释的范围,并且添加另一个变量会有轻微的过度拟合惩罚。