具有“分区”数据的线性回归

数据挖掘 预测建模 线性回归 初学者
2022-02-14 07:35:50

无论如何,我都不是统计/数学专家,但一直在尝试对人口普查数据进行一些线性回归,并认为我遇到了一个基本问题/障碍。

响应变量是百分比。自变量是按州划分的百分比。这是我只知道称为“分区”数据的示例。其中一组自变量是“照明”,并且对于一个城市(例如)具有以下变量和值:

electricity - 40%
kerosene - 10%
candle - 25%
generator - 15%
solar - 5%
other - 5%

当加在一起时,这六个变量 = 100%。只有六种选择,一个家庭只能有一种“照明”。使用所有这六个变量,会导致我的模型爆炸,产生超出图表的系数,显然有问题。

关于如何处理或至少仍然使用线性回归的分区数据的任何见解?这些类型的变量还有其他名称吗?

2个回答

这是因为第 6 个预测变量是其他 5 个预测变量的线性组合。您可以这样写:

electricity = 100%-kerosene-candle-generator-solar-other

线性回归模型根本不处理线性组合。但是解决方案很简单,因为第 6 个变量嵌入在前 5 个变量中,您可以删除一列,因为其他 5 个变量隐含了它。

我认为这取决于您使用什么算法来优化损失。如果您使用正规方程来求解XTX1确切地说,您将面临问题,因为在完全相关的列的情况下,逆不存在。另一方面,如果您使用梯度下降等数值方法,您实际上可能没问题。