我对泊松回归不是很熟悉,所以我想我在下面的分析中一定犯了一个错误:
我正在研究吸烟对肺癌发病率的影响。数据集在此处提供。变量smoking_status
定义:
吸烟状态:编码 1 = 不吸烟,2 = 只抽雪茄或烟斗,3 = 抽雪茄和雪茄或烟斗,4 = 只抽雪茄,
我稍微修改了数据并制作了两个新的分类变量:烟斗/雪茄吸烟者和香烟吸烟者,以替换吸烟状态。所以吸烟状态 1 映射到 (0,0),2 映射到 (1,0),3 映射到 (1,1) 等等。
我还在我的数据集中添加了一个常量列。这就是我对数据所做的一切。
然后,我使用指数链接函数对该数据集执行泊松回归。我的希望是这两个新变量的系数是正的,但只有 Smoking_smoker 是正的。置信区间也不包含正点。
我是否错误地分析了数据,或者我的数据是错误的?
编辑
输出(来自 Python 库 Statsmodels )
Generalized Linear Model Regression Results
Dep. Variable: y No. Observations: 36
Model: GLM Df Residuals: 31
Model Family: Poisson Df Model: 4
Link Function: log Scale: 1.0
Method: IRLS Log-Likelihood: -815.93
Date: Thu, 31 Jan 2013 Deviance: 1391.8
Time: 13:19:32 Pearson chi2: 1.22e+03
No. Iterations: 7
coef std err t P>|t| [95.0% Conf. Int.]
------------------------------------------------------------------------------
x1 0.2596 0.006 44.097 0.000 0.248 0.271
x2 -0.1850 0.024 -7.775 0.000 -0.232 -0.138
x3 0.5327 0.031 17.101 0.000 0.472 0.594
x4 0.0004 7.95e-06 54.637 0.000 0.000 0.000
const 2.9593 0.046 63.903 0.000 2.869 3.050
变量依次为年龄、smoke_cigar (0,1)、smoke_cigar (0,1)、人口(以十万计)、constant_term。
一些示例数据:
数组([[ 2., 0., 0., 359., 1.], [ 4., 0., 1., 3270., 1.]])
与目标死亡 [22., 514.] 分别。