我想确保我正确理解了这个过程。这是解释二维对应分析图的后续问题
library(reshape)
library(ca)
df <- read.csv(file="http://www.bertelsen.ca/R/smokers.csv")
colnames(df)[7] <- "value" ## make reshape smart
df <- cast(df, SMOKER ~ GEO) ## reshape data
row.names(df) <- df$SMOKER ## rename rows
df <- df[2:ncol(df)] ## reset df
df <- df[-4,] ## Let's only look at people who have smoked
df <- df[c("AB","BC","ON","QC")] ## and only the biggest 4 provinces (KISS)
plot(ca(df))
summary(ca(df))
输出
Principal inertias (eigenvalues):
dim value % cum% scree plot
1 0.002523 99.9 99.9 *************************
2 3e-06000 0.1 100.0
3 00000000 0.0 100.0
-------- -----
Total: 0.002526 100.0
Rows:
name mass qlt inr k=1 cor ctr k=2 cor ctr
1 | Crrn | 265 1000 191 | -43 1000 191 | 1 0 43 |
2 | Dlys | 201 1000 351 | -66 1000 351 | -1 0 70 |
3 | Frmr | 470 1000 432 | 48 1000 432 | -1 0 98 |
4 | Occs | 65 1000 26 | 31 964 25 | 6 36 789 |
Columns:
name mass qlt inr k=1 cor ctr k=2 cor ctr
1 | AB | 116 1000 146 | -56 1000 146 | -1 0 34 |
2 | BC | 142 1000 775 | 118 1000 776 | -1 0 41 |
3 | ON | 434 1000 7 | -6 909 6 | 2 91 540 |
4 | QC | 308 1000 72 | -24 994 72 | -2 6 385 |
看着summary(ca(df))我发现几乎 100% 的惯性由两种模式的行配置文件(分别为吸烟者类型和省份)描述。

(我认为)应该立即得到的结论是:
- 如果您住在 AB、QC 或 ON,您更有可能每天吸烟
- 如果您住在 BC,您更有可能成为前吸烟者
- 如果您住在 BC,您最不可能成为日常吸烟者(这符合加拿大对 BC 的“积极生活方式”文化的广泛理解)
对于偶尔吸烟的人,我们能说些什么?您的分析会通过此对应图及其相关摘要告诉我们什么?
数据来源:加拿大统计局,加拿大社区健康调查 (CCHS 3.1),2005。CANSIM 表 105-0427 是 CANSIM 表 105-0227 的更新。更多最新数据在 CANSIM 表105-0501和105-0502中。