如何用分类答案对问题的结果进行排名?

机器算法验证 分类数据 民意调查
2022-03-26 04:57:57

我正在处理一项有多个问题的调查结果。所有答案(在这种情况下)都是分类的和有序的(例如非常不开心、不开心、中性、开心、非常开心)。

我正在寻找一种将问题从“最差结果”到“最佳结果”的问题进行排序的方法。从视觉上看,走极端有点容易。如果我绘制每个问题的答案分布,我可以确定哪些问题有很多“好”答案(分布呈负偏态)或那些有很多“坏”答案(正偏直方图)。所以选择极端很容易,但这也取决于数据。

然而,数量上,我不知道该怎么做。由于答案是有序的,而不是区间尺度,我不知道如何计算每个问题的总数。如果没有更好的方法,也许给每个类别(例如 -2、-1、0、1 或 2)并总结结果可能会起作用,但我确实意识到这在数学上是不准确的,因为这不是区间尺度。

哦,我不是统计学家,只是个程序员。我希望对此有一个合理的选择,我可以想象这是一个关于分类数据的相当普遍的问题。

提前致谢。

PS 我使用 R 以防有内置的东西。

4个回答

如果您所有的问题都具有相同的响应量表并且它们是标准的李克特项目,那么将项目 1、2、3、4、5 缩放并取平均值通常是可以的。

您可以通过试验不同的缩放程序(例如,0、0、0、1、1 常见于您想要评估快乐或非常快乐的百分比;或同意或非常同意)来调查排名排序的稳健性。根据我的经验,这种缩放变体将为您提供几乎相同的问题顺序。如果您想变得复杂,您还可以探索最佳缩放主成分或某种形式的多分支 IRT 方法。

一个包含三列的表格就可以了:排名、项目文本、平均值。您也可以对 x 轴上的问题和 y 轴上的平均值做同样的事情。

假设序数比例成立,用数值重新编码数据似乎没问题。这通常是李克特类型项目的情况,但请参阅以下相关问题:

在验证问卷时,我们通常会提供通常的数字摘要(平均±sd, range, quartiles) 以突出天花板/地板效应,即在量表的极端范围内具有更高的响应率。点图也是总结此类数据的好工具。

这仅用于可视化/摘要目的。如果您想了解更多统计信息,可以对序数项目使用比例优势模型或序数逻辑回归,对离散项目使用多项回归。

如果我绘制每个问题的答案分布,我可以确定哪些问题有很多“好”答案(分布呈负偏态)或那些有很多“坏”答案(正偏直方图)。所以选择极端很容易,但这也取决于数据。

是否需要绝对排名?就像您指出的那样,中间的事情可能更模糊,那么根据某种评分方法区分 8 级和 9 级(或其他)与您的调查相关吗?

一种方法是继续您上面所说的 - 查看分布并根据数据的好/好/坏比例对问题进行分类。您可以从马赛克图(以问题为因素)开始探索您的数据。这可能有助于揭示将问题分组的标准。它们不是零碎的排名,而是被分类为类别(例如,可能排名 1-5 的东西变成了类别 1,等等)。

对已经给出的答案的一点补充:

在不假设您的序数数据是区间的情况下,您可以比较任何方便的分位数 - 例如中位数。

或者,当比较 X 与 Y 两者都是有序分类时,您可以估计诸如 P(Y>X) - P(X>Y) 或 P(Y>X) + 0.5 * P(Y=X) 之类的东西。 ),当然,您可以按比例估计概率。