机器算法验证 - 将分类数据视为连续数据是否有意义？ - 吾爱随笔录

将分类数据视为连续数据是否有意义？

机器算法验证分类数据数据转换序数数据连续数据

2022-01-16 04:22:50

在回答关于离散和连续数据的这个问题时，我巧妙地断言，将分类数据视为连续数据几乎没有意义。

从表面上看，这似乎是不言而喻的，但直觉往往是统计数据的糟糕指南，或者至少我的直觉是。所以现在我想知道：这是真的吗？或者是否有已建立的分析，从分类数据到某个连续体的转换实际上是有用的？如果数据是有序的，会有所不同吗？

4个回答

我将假设一个“分类”变量实际上代表一个序数变量；否则将其视为连续变量没有多大意义，除非它是@Rob 指出的二进制变量（编码为0/1）。然后，我会说问题不在于我们处理变量的方式，尽管到目前为止已经开发了许多用于分类数据分析的模型 - 参见例如，有序分类数据的分析：概述和最近的调查Liu 和 Agresti 的发展，而不是我们假设的基本测量尺度。我的回答将集中在第二点，尽管我将首先简要讨论将数字分数分配给变量类别或级别。

通过对序数变量进行简单的数值重新编码，您假设该变量具有区间属性（在 Stevens，1946 年给出的分类意义上）。从测量理论的角度来看（在心理学中），这通常可能是一个太强的假设，但对于基础研究（即，使用单个项目以清晰的措辞表达对日常活动的看法）任何单调的分数都应该给出可比较的结果. Cochran (1954) 已经指出

任何一组分数都是有效的测试，只要它们是在没有参考实验结果的情况下构建的。如果分数集很差，因为它严重扭曲了真正作为有序分类基础的数字量表，则测试将不敏感。因此，分数应体现对分类的构建和使用方式的最佳洞察力。（第 436 页）

（非常感谢@whuber 在他的一条评论中提醒我这一点，这让我重新阅读了 Agresti 的书，此引文来自该书。）

实际上，一些测试隐含地将这些变量视为区间尺度：例如，用于测试线性趋势的统计量（作为简单独立性的替代）基于相关方法（，Agresti，2002 年，第 87 页）。 $M^2$ $M^2=(n-1)r^2$

好吧，您也可以决定在不规则范围内重新编码您的变量，或聚合它的一些级别，但在这种情况下，重新编码的类别之间的严重不平衡可能会扭曲统计测试，例如前面提到的趋势测试。@Jeromy 已经提出了分配类别之间距离的一个很好的替代方案，即最佳缩放。

现在，让我们讨论我提出的第二点，即基础测量模型。当我看到这类问题时，我总是犹豫是否要添加“心理测量学”标签，因为测量量表的构建和分析属于心理测量学理论（Nunnally 和 Bernstein，1994 年，为了一个简洁的概述）。我不会详述项目响应理论下的所有模型，请感兴趣的读者参考 I. Partchev 的教程，项目响应理论的视觉指南，对于 IRT 的简要介绍，以及最后列出的可能 IRT 分类法的参考文献 (5-8)。非常简单地说，这个想法是，不是在变量类别之间分配任意距离，而是假设一个潜在的尺度并估计它们在该连续统一体上的位置，以及个人的能力或责任。一个简单的例子值得很多数学符号，所以让我们考虑以下项目（来自EORTC QLQ-C30健康相关的生活质量问卷）：

你担心吗？

它采用四分制编码，范围从“一点也不”到“非常多”。原始分数是通过分配 1 到 4 的分数来计算的。然后可以将属于同一量表的项目的分数加在一起以产生所谓的量表分数，它表示一个人在基础结构（这里是心理健康组件）上的排名）。由于评分容易（对于从业者或护士），这种总和的量表分数非常实用，但它们只不过是一个离散的（有序的）量表。

我们还可以考虑支持给定响应类别的概率遵循某种逻辑模型，如上文提到的 I. Partchev 的教程中所述。基本上，这个想法是一种阈值模型（根据比例或累积赔率模型得出等效公式），我们对属于一个响应类别而不是前一个响应类别的概率或得分高于 a 的概率建模特定类别，以受试者在潜在特征上的位置为条件。此外，我们可能会强制要求响应类别在潜在量表上等距分布（这是评级量表模型）——这是我们通过分配规则间隔的数字分数的方式——或者不是（这是部分信用模型） .

显然，我们并没有在经典检验理论中添加太多东西，其中序数变量被视为数值变量。但是，我们引入了一个概率模型，其中我们假设一个连续的尺度（具有区间属性）并且可以考虑特定的测量误差，并且我们可以将这些因子分数插入任何回归模型中。

参考

SS史蒂文斯。关于度量衡的理论。科学，103：677-680，1946。
WG 科克伦。加强常见测试的一些方法。生物识别，10：417-451，1954。 $\chi^2$
J Nunnally 和我伯恩斯坦。心理测量理论。麦格劳-希尔，1994
艾伦·阿格雷斯蒂。分类数据分析。威利，1990 年。
CR Rao 和 S Sinharay，编辑。统计手册，卷。26：心理测量学。Elsevier Science BV，荷兰，2007 年。
A Boomsma、MAJ van Duijn 和 TAB Snijders。关于项目反应理论的论文。斯普林格，2001 年。
D Thissen 和 L Steinberg。项目响应模型的分类。心理测量学，51（4）：567–577，1986。
P Mair 和 R Hatzinger。扩展 Rasch 建模：用于在 R 中应用 IRT 模型的 eRm 包。统计软件杂志，20(9)，2007。

如果只有两个类别，那么将它们转换为 (0,1) 是有意义的。事实上，这通常在回归模型中使用得到的虚拟变量时完成。

如果有两个以上的类别，那么我认为只有数据是有序的才有意义，而且只有在非常具体的情况下才有意义。例如，如果我正在做回归并将非参数非线性函数拟合到序数兼数值变量，我认为这没问题。但是如果我使用线性回归，那么我会对序数变量的连续值之间的相对差异做出非常强烈的假设，而且我通常不愿意这样做。

通常将具有许多类别的有序分类变量视为连续的。这方面的例子：

在 100 项测试中正确的项目数
综合心理量表（例如，五点量表中每项 10 项的平均值）

“视为连续”是指将变量包含在假设连续随机变量的模型中（例如，作为线性回归中的因变量）。我想问题是需要多少比例点才能成为一个合理的简化假设。

其他一些想法：

多变量相关性试图根据假设的潜在连续变量对两个序数变量之间的关系进行建模。
最佳缩放允许您开发模型，其中分类变量的缩放以数据驱动的方式开发，同时尊重您施加的任何缩放约束（例如，序数）。有关很好的介绍，请参见 De Leeuw 和 Mair (2009)

参考

De Leeuw, J. 和 Mair, P. (2009)。R 中最佳缩放的 Gifi 方法：包 homals。统计软件杂志，即将出版，1-30。PDF格式

许多读者的经验中经常被忽视的一个非常简单的例子是关于学术工作的分数或等级。通常，个人作业的分数本质上是基于判断的序数测量，即使按照惯例，它们以（例如）百分比标记或最多 5 分（也可能带有小数点）的刻度给出。也就是说，老师可能会通读一篇论文、论文、论文或论文，并决定它应该得到 42% 或 4% 或其他任何值。即使分数基于详细的评估方案，该量表也与间隔或比率测量量表有一定距离。

但随后许多机构认为，如果你有足够的这些分数或成绩，那么对它们进行平均（平均成绩等）甚至更详细地分析它们是完全合理的。因此，在某些时候，序数测量会变成一个汇总量表，将其视为连续的。

具有讽刺意味的鉴赏家会注意到，许多系或学院的统计课程经常教导说，这充其量是可疑的，最坏的情况是错误的，而它一直是作为大学范围内的程序实施的。

其它你可能感兴趣的问题