调查数据分析(离散数据)

数据挖掘 r
2022-02-26 09:07:15

我做了小调查,得到了这样的数据:

|-------------| Yes | No | Dont_Know |  
|-------------|     |    |           |  
| Employee    | 60  | 5  | 5         |  
| Workers     | 17  | 0  | 1         |  
| Businessmen | 71  | 5  | 10        |  
| Jobless     | 4   | 30 | 0         |  

R代码

dt <- data.frame(workers = c("Employee",
                             "Workers", 
                             "Businessmen", 
                             "Jobless"), 
                 yes = c(60,17,71,4), 
                 no = c(5,0,5,30), 
                 dont_know = c(5,1,10,0)
                )
  1. 我必须做什么样的测试,如果我想证明失业者经常选择回答?
  2. Jobless 和 Businessmen 答案之间的差异是否显着?
  3. 那么其他群体呢?
  4. 我可以从这些数据中获得哪些其他信息,或者我可以从这些数据中提出什么样的问题?
1个回答

这里有一些可以尝试的东西。

  1. 绘制条形图。条形图将清楚地显示失业者经常选择“否”。尝试 1-way ANOVA 测试。如果 p < delta(即 delta=0.05),请尝试事后测试(即 Tukey 的 HSD)进行成对比较。
  2. 就像我之前说的,先试试多重比较检验(1-way ANOVA),如果有统计学上的显着差异,可以试试成对比较检验(post-hoc test)。
  3. 也许尝试聚类算法?小心,因为边际总和(按行或列)不相等。也许按专业创建一个相似度矩阵?在我看来,Employees 和 Businessmen 似乎属于一个组(非常相似),而 Workers 和 Jobless 则各自属于自己的组。如果将这些频率转化为比例,那么您可能只有 2 组;一种是员工+工人+商人,一种是失业者。
  4. 使用列联表分析来查看响应(是/否/不知道)是否与专业相关。