我正在阅读 A. Agresti (2007), An Introduction to Categorical Data Analysis,第 2 期。版,并且不确定我是否正确理解了这一段(p.106, 4.2.1)(尽管应该很容易):
在上一章关于打鼾与心脏病的表 3.1 中,254 名受试者报告每晚打鼾,其中 30 名患有心脏病。如果数据文件有分组的二进制数据,则数据文件中的一行将这些数据报告为 254 个样本大小中的 30 例心脏病。如果数据文件有未分组的二进制数据,则数据文件中的每一行引用一个单独的主题,因此 30 行包含 1 表示心脏病,224 行包含 0 表示心脏病。两种类型的数据文件的 ML 估计值和 SE 值相同。
转换一组未分组的数据(1 个相关的,1 个独立的)将需要更多的“一行”来包含所有信息!?
在以下示例中,创建了一个(不切实际!)简单数据集并构建了一个逻辑回归模型。
分组数据实际上看起来如何(变量选项卡?)?如何使用分组数据构建相同的模型?
> dat = data.frame(y=c(0,1,0,1,0), x=c(1,1,0,0,0))
> dat
y x
1 0 1
2 1 1
3 0 0
4 1 0
5 0 0
> tab=table(dat)
> tab
x
y 0 1
0 2 1
1 1 1
> mod1=glm(y~x, data=dat, family=binomial())
