如何总结分类数据?

机器算法验证 分类数据 数据转换 描述性统计
2022-03-22 01:50:27

我一直在努力解决以下问题,希望对统计学家来说是一个简单的问题(我是一名接触过统计学的程序员)。

我需要总结对调查的回应(用于管理)。该调查有 100 多个问题,按不同领域分组(每个领域大约 5 到 10 个问题)。所有答案都是分类的(在序数范围内,它们就像“根本没有”、“很少”……“每天或更频繁地”)。

管理层希望获得每个领域的摘要,这是我的问题:如何汇总相关问题中的分类答案?. 问题太多了,无法为每个区域制作图表甚至格子图。如果可能的话,我更喜欢视觉方法,例如,与带有数字的表格相比(唉,他们不会阅读它们)。

我唯一能想到的就是计算每个区域的答案数量,然后绘制直方图。

还有其他可用于分类数据的东西吗?

我使用 R,但不确定它是否相关,我觉得这更像是一个一般的统计问题。

4个回答

您确实需要弄清楚您要回答的问题是什么 - 或者管理层最感兴趣的问题是什么。然后您可以选择与您的问题最相关的调查问题。

在不了解您的问题或数据集的情况下,以下是一些通用解决方案:

  • 直观地将答案表示为集群。我最喜欢的是使用树状图或仅在 xy 轴上绘图(谷歌“cluster analysis r”并通过 statmethods.net 转到第一个结果)
  • 将问题从“每天或更频繁”的回答从大到小排列。这是一个可能不完全适合您的示例,但也许它会启发您http://www.programmingr.com/content/building-scoring-and-ranking-systems-r
  • 交叉表:例如,如果您有一个问题“您上班迟到的频率如何?” 和“你使用 Facebook 的频率?”通过交叉测试这两个问题,您可以找出很少同时使用这两种方法或每天都使用两种方法的人的百分比。(谷歌“r 频率交叉表”或访问上述 statmethods.net )
  • 相关图。我对这些没有任何经验,但我也在 statmethods.net 网站上看到过。基本上,您会找到哪些问题具有最高的相关性,然后创建一个表格。尽管它看起来有点“忙”,但您可能会发现这很有用。

Michael Friendly 有一篇很好的关于可视化技术的论文:

(实际上,同一作者写了一整本书。)R 中的vcd包实现了许多这些技术。

标准选项包括:

  • 获取某个范围内项目的平均值(例如,如果范围为 1 到 5,则平均值将为 1 到 5)
  • 将每个项目转换为二元度量(例如,如果项目 >= 3,则为 1,否则为 0),然后取此二元响应的平均值

鉴于您正在对组织中的项目和大量人员样本进行汇总,上述两个选项(即 1 到 5 的平均值或高于一个点的百分比平均值)在组织级别上都是可靠的(请参阅此处进一步讨论)。因此,上述任一选项基本上都在传达相同的信息。

一般来说,我不会担心项目是分类的事实。当您通过聚合项目创建量表,然后聚合您的受访者样本时,量表将非常接近连续量表。

管理层可能会发现一个指标更容易解释。当我得到教学质量分数(例如,100 名学生的平均学生满意度分数)时,它是 1 到 5 分的平均值,这很好。多年来,在每年看到自己的分数并看到大学的一些规范之后,我已经制定了不同价值观含义的参考框架。然而,管理层有时更愿意考虑支持声明的百分比,或积极响应的百分比,即使它在某种意义上是平均百分比。

主要的挑战是为分数提供一些切实的参考框架。管理层会想知道这些数字的实际含义例如,如果一个量表的平均响应是 4.2,那是什么意思?好吗?不好吗?刚刚好吗?

如果您多年来或在不同的组织中使用该调查,那么您可以开始制定一些规范。获得规范是组织经常聘请外部调查提供者或使用标准调查的原因之一。

您可能还希望进行因子分析,以验证将项目分配给量表在经验上是合理的。

就视觉方法而言,您可以有一个简单的折线图或条形图,其中 x 轴上的比例类型和 y 轴上的分数。如果你有规范数据,你也可以添加。

是的。我发现聚类是一种非常有效的数据减少方法,可以减少调查数据,以便理解和管理演示。

潜在类别分析(将响应尺度视为序数)或 k-means(将它们视为连续)都可以视为信息压缩的一种形式。将受访者分类到他们最有可能的部分通常会产生一个分类变量,当根据响应进行分析时,该变量具有直观的解释。

然后,您可以命名这些段,并将这些变量用于摘要级别的分析和演示。

为相关项目组(例如下面)或可能全部适合一个集群。

Q14cluser <-  Q14(a..m):  Which of the following... Check all that apply
QEcluster <-  QE1..QE30:  Rate your agreement with .. Scale of 1-5

我经常使用 LatentGold,但发现 SAS 中的 FASTCLUS 是一个很好的权宜之计。

在这样做之前,您需要考虑调整每个人的反应以适应他们对量表的使用(有争议但务实)。有些人只是靠在天平的一端,要么避免消极的一面,要么避免积极的一面。对原始响应进行聚类通常倾向于将人们按该行为划分。

将每个受访者的答案标准化为他们自己的平均值并对其进行聚类通常会暴露以非常有趣的方式一起移动的变量。