是否有任何直接的方法可以将序数级别数据转换为区间级别(就像反过来做一样)?并且可以在 Excel 或 SPSS 中执行?
有了数据,比如说:序数级别的 10 个问题(比如 0-5 级,其中 0="根本没有",5="一直"),我想对它们进行转换,以便它们可以被视为适当的用于参数测试目的的区间水平数据(正态分布,不可能的非参数测试)。
将非常感谢答案!
是否有任何直接的方法可以将序数级别数据转换为区间级别(就像反过来做一样)?并且可以在 Excel 或 SPSS 中执行?
有了数据,比如说:序数级别的 10 个问题(比如 0-5 级,其中 0="根本没有",5="一直"),我想对它们进行转换,以便它们可以被视为适当的用于参数测试目的的区间水平数据(正态分布,不可能的非参数测试)。
将非常感谢答案!
此响应将从测量的角度讨论可能的模型,其中给我们一组观察到的(明显的)相互关联的变量或测量值,假设其共享方差用于测量一个识别良好但不能直接观察到的构造(通常,在反射方式),这将被视为一个潜在变量。如果您不熟悉潜在特征测量模型,我会推荐以下两篇文章:心理测量学家的攻击,Denny Borsbooom 和潜在变量建模:调查,Anders Skrondal 和 Sophia Rabe-Hesketh。在处理具有多个响应类别的项目之前,我将首先稍微偏离一下二元指标。
将序数级别数据转换为区间尺度的一种方法是使用某种项目响应模型。一个著名的例子是Rasch 模型,它从经典测试理论中扩展了并行测试模型的思想,以应对二进制评分项目通过广义(带有 logit 链接)混合效应线性模型(在某些“现代”软件实现中),其中认可给定项目的概率是“项目难度”和“个人能力”的函数(假设没有一个人在被测量的潜在特征上的位置与同一 logit 量表上的项目位置之间的相互作用——这可以通过一个额外的项目区分参数来捕获,或者与个体特定特征的相互作用——称为差异项目功能)。假设底层构念是一维的,Rasch模型的逻辑就是被访者有一定的“构念量”——让我们谈谈主体的责任(他/她的“能力”),,任何定义此构造的项目(它们的“难度”)也是如此。感兴趣的是测量尺度上的受访者位置和项目位置之间的差异,。举一个具体的例子,考虑以下问题:“我发现除了焦虑之外很难专注于任何事情”(是/否)。与从普通人群中随机抽取且没有抑郁症或焦虑相关疾病病史的随机个体相比,患有焦虑症的人更有可能对这个问题做出积极的回答。
下面显示了来自美国一项旨在建立一个评估焦虑相关疾病的校准项目库(1,2)的大规模研究的 29 个项目响应曲线的图示。样本量为;探索性因子分析证实了量表的一维性(第一个特征值大大高于第二个特征值(17 倍量),并且平行分析证实了不可靠的第二个因子轴(特征值刚好高于 1)),并且该量表显示了可靠性指数在可接受范围内,由 Cronbach's alpha (,95% bootstrap CI)。最初,为每个项目提出了五个响应类别(1 =“从不”、2 =“很少”、3 =“有时”、4 =“经常”和 5 =“总是”)。我们将在这里只考虑二进制评分的响应。
(在这里,对李克特类型项目的响应已被重新编码为二元响应(1/2=0, 3-5=1),我们认为每个项目在个体之间具有相同的区分性,因此项目曲线斜率之间的平行性(Rasch模型)。)
可以看出,位于轴右侧的人反映了潜在特征(焦虑),被认为表达更多这种特征的人更有可能积极回答诸如“我感到害怕”(太棒了)这样的问题)或“我突然感到恐慌”(恐慌)比位于左侧的人(正常人群,不太可能被视为病例);另一方面,一般人群中的某个人报告难以入睡(睡眠)并非不可能:对于位于潜在特征中间范围的人,例如 0 logit,他/她得分 3 或更高的概率大约是 0.5(这是项目难度)。
对于具有有序类别的多头项目,有几种选择:部分信用模型、评级量表模型或分级响应模型,仅举几例,主要用于应用研究。前两个属于 IRT 模型的所谓“Rasch 家族”,并具有以下属性:(a)响应概率函数(项目/类别响应曲线)的单调性,(b)总个体得分的充分性(具有潜在参数被认为是固定的),(c)局部独立性意味着对项目的响应是独立的,取决于潜在特征,以及(d)没有差异项目功能这意味着,以潜在特征为条件,反应独立于外部个体特定变量(例如,性别、年龄、种族、SES)。
将前面的示例扩展到有效考虑了五个反应类别的情况,与从一般人群中抽样的人相比,患者将更有可能选择反应类别 3 到 5,而没有任何与焦虑相关的疾病的先兆。与上述二分项建模相比,这些模型考虑累积(例如,回答 3 对 2 或更少的几率)或相邻类别阈值(回答 3 对 2 的几率),这也在 Agresti 的分类数据分析(第 12 章)。上述模型之间的主要区别在于处理从一种响应类别到另一种响应类别的转换方式:部分信用模型不假设任何给定阈值位置与潜在特征上阈值位置的平均值之间的差异相等或跨项目统一,与评级量表模型相反。这些模型之间的另一个细微差别是其中一些模型(如无约束分级响应或部分信用模型)允许项目之间的歧视参数不相等。有关更多详细信息,请参阅Reeve 和 Fayers 的应用项目响应理论模型评估问卷项目和量表属性,或Frank B. Baker的项目响应理论的基础。
因为在前面的案例中,我们讨论了对二分项目的响应概率曲线的解释,让我们看一下从分级响应模型得出的项目响应曲线,突出显示相同的目标项目:
(无约束的分级响应模型,允许项目之间的不平等歧视。)
在这里,以下观察值得考虑:
在上面讨论的两种情况下,这个量表具有区间量表的性质。
除了被认为是真正的测量模型之外,Rasch 模型的吸引力在于总得分作为一个充分的统计量,可以用作潜在得分的替代品。此外,充分性属性很容易暗示模型(人和项目)参数的可分离性(在多头项目的情况下,不应忘记一切都适用于项目响应类别的级别),因此是联合可加性。
Mair 和 Hatzinger 发表在Journal of Statistical Software上的文章对 IRT 模型层次结构和 R 实现进行了很好的回顾:Extended Rasch Modeling: The eRm Package for the Application of IRT Models in R。其他模型包括对数线性模型、非参数模型(如Mokken 模型)或图形模型。
除了 R,我不知道 Excel 的实现,但是在这个线程上提出了几个统计包:如何开始应用项目响应理论以及使用什么软件?
最后,如果您想在不借助测量模型的情况下研究一组项目和响应变量之间的关系,那么通过最佳缩放进行某种形式的变量量化也会很有趣。除了在这些线程中讨论的 R 实现之外,还在相关线程中提出了 SPSS 解决方案。
Alan Agresti在他的《序数分类数据分析》一书中涵盖了几个。其中之一是我在博客上讨论的游戏