预测变量的多重共线性和准确权重

数据挖掘 共线性
2022-02-18 00:56:59

假设各种公司的股票价值是我的模型的目标。

我有一些“内部”预测变量,例如每家公司的年销售额、每家公司的工资总额等。

我有一些“外部”预测因素,例如每家公司的地理位置(纬度和经度)、每家公司经营所在地区的人口等。

因此,我数据集中的每个观察结果都是关于公司的股票价值及其内部和外部预测因素。

我的项目的目的是了解公司的每个内部预测因素如何以非常具体的方式影响各自公司的股票价值。

简而言之,我想为内部预测变量获得一些准确的权重,这些权重向我展示它们究竟如何影响各自公司的股票价值。

但是,由于某些内部预测变量之间存在相对较高的多重共线性,因此我并没有真正为它们中的每一个获得非常准确的权重。

内部和外部预测变量之间也可能存在,但我不认为这是一个问题,因为我认为在计算内部预测变量的权重时应该考虑所有外部预测变量。

但是,我不确定是否必须将所有内部预测变量放在同一个模型中,因为例如,我不希望因为其他内部预测变量的存在而修改公司年销售额的权重,例如这家公司的工资总额。

在这方面,我开始认为最好的方法是拥有多个不同的模型,其中每个模型分别与一个内部预测变量有关,但在每种情况下都与所有外部预测变量有关。

这有意义吗?

你有更好的主意吗?

PS我刚刚发现了一篇与我的推理非常相似的帖子:https ://www.researchgate.net/post/Is_building_separate_models_a_solution_to_multi-collinearity 。

2个回答

如果您构建单独的模型,您将使内部预测变量/特征彼此独立。这将导致您的许多内部预测变量获得非常高的权重,如果您将它们添加到同一个模型中,情况可能不会如此。一个明显的方法是删除相关的预测变量,然后看看你得到了什么权重。

一种方法是使用像 pca 这样的降维方法来删除它。或者你可以使用像 ridge 这样的正则化方法。