解释二维对应分析图(第二部分)

机器算法验证 r 双标图 对应分析
2022-03-30 13:37:52

我想确保我正确理解了这个过程。这是解释二维对应分析图的后续问题

library(reshape) 
library(ca)

df <- read.csv(file="http://www.bertelsen.ca/R/smokers.csv")
colnames(df)[7] <- "value"  ## make reshape smart
df <- cast(df, SMOKER ~ GEO) ## reshape data
row.names(df) <- df$SMOKER ## rename rows
df <- df[2:ncol(df)] ## reset df
df <- df[-4,] ## Let's only look at people who have smoked
df <- df[c("AB","BC","ON","QC")] ## and only the biggest 4 provinces (KISS)
plot(ca(df))

summary(ca(df))

输出

Principal inertias (eigenvalues):

 dim    value      %   cum%   scree plot               
 1      0.002523  99.9  99.9  *************************
 2      3e-06000   0.1 100.0                           
 3      00000000   0.0 100.0                           
        -------- -----                                 
 Total: 0.002526 100.0                                 


Rows:
    name   mass  qlt  inr    k=1  cor ctr    k=2 cor ctr  
1 | Crrn |  265 1000  191 |  -43 1000 191 |    1   0  43 |
2 | Dlys |  201 1000  351 |  -66 1000 351 |   -1   0  70 |
3 | Frmr |  470 1000  432 |   48 1000 432 |   -1   0  98 |
4 | Occs |   65 1000   26 |   31  964  25 |    6  36 789 |

Columns:
    name   mass  qlt  inr    k=1  cor ctr    k=2 cor ctr  
1 |   AB |  116 1000  146 |  -56 1000 146 |   -1   0  34 |
2 |   BC |  142 1000  775 |  118 1000 776 |   -1   0  41 |
3 |   ON |  434 1000    7 |   -6  909   6 |    2  91 540 |
4 |   QC |  308 1000   72 |  -24  994  72 |   -2   6 385 |

看着summary(ca(df))我发现几乎 100% 的惯性由两种模式的行配置文件(分别为吸烟者类型和省份)描述。

ON、QC、AB 和 BC 中吸烟者类型的 CA

(我认为)应该立即得到的结论是:

  1. 如果您住在 AB、QC 或 ON,您更有可能每天吸烟
  2. 如果您住在 BC,您更有可能成为前吸烟者
  3. 如果您住在 BC,您最不可能成为日常吸烟者(这符合加拿大对 BC 的“积极生活方式”文化的广泛理解)

对于偶尔吸烟的人,我们能说些什么?您的分析会通过此对应图及其相关摘要告诉我们什么?

数据来源:加拿大统计局,加拿大社区健康调查 (CCHS 3.1),2005。CANSIM 表 105-0427 是 CANSIM 表 105-0227 的更新更多最新数据在 CANSIM 表105-0501105-0502中。

1个回答

我是一名生态学家,所以我提前道歉这听起来有点奇怪:-)

我喜欢用加权平均值来考虑这些图。区域点位于吸烟状态类别的加权平均值,反之亦然。

上图的问题是轴缩放以及您无法在一张图上显示所有关系(区域之间的卡方距离和吸烟状态之间的卡方距离)的事实。从外观上看,该图使用了所谓的对称缩放,这已被证明是一种很好的折衷方案,可以尽可能多地保留分数集中的信息。

我不熟悉这个ca包,但我使用的是 vegan 包,它的cca功能是:

require(vegan)
df <- data.frame(df)
ord <- cca(df)
plot(ord, scaling = 3)

最后一个图比您显示的图更容易阅读,但 AFAICT 它们是相同的(或至少类似缩放)。

所以我想说,在 QC、BC 和 AB 中,偶尔吸烟者的人数低于预期,并且与 ON 相关的最多,但在所有地区,偶尔吸烟者的人数都很少——他们与预期人数明显不同。

然而,这些数据中只有一个主要的“梯度”或变化轴,并且由于第二个轴代表的变化很小,我可能根本不会解释这个组件。