无论如何,我都不是统计/数学专家,但一直在尝试对人口普查数据进行一些线性回归,并认为我遇到了一个基本问题/障碍。
响应变量是百分比。自变量是按州划分的百分比。这是我只知道称为“分区”数据的示例。其中一组自变量是“照明”,并且对于一个城市(例如)具有以下变量和值:
electricity - 40%
kerosene - 10%
candle - 25%
generator - 15%
solar - 5%
other - 5%
当加在一起时,这六个变量 = 100%。只有六种选择,一个家庭只能有一种“照明”。使用所有这六个变量,会导致我的模型爆炸,产生超出图表的系数,显然有问题。
关于如何处理或至少仍然使用线性回归的分区数据的任何见解?这些类型的变量还有其他名称吗?