机器算法验证 - 多个有序变量的总和仍然是有序的吗？ - 吾爱随笔录

机器算法验证回归民意调查序数数据李克特

2022-03-03 13:16:44

我进行了一项调查，其中我有一些可以回答的问题非常同意，同意等到非常不同意。有些问题是为了衡量同样的事情而设计的。

我已经对这些变量求和以获得这个潜在特征的“分数”，我希望在回归中预测这个分数

那么我的问题是，我仍然可以将这个求和变量视为序数变量吗？因此应该使用序数回归。还是我现在应该将其视为一个连续变量并使用简单的回归？

我看到有几个问题讨论了是否可以将同意/不同意变量视为序数，还有一些问题质疑是否可以总结这些问题，但我还没有找到一个讨论属性的问题新变量。

4个回答

当你说 4+1 = 3+2 = 5 之类的东西时——当你对分量求和时你必须这样做——你（几乎不可避免地）假设它们当时是区间。

[如果组件不是间隔，通常是 4+1 3+2 ...所以你当然没有必要将它们都称为“5”。] $\neq$

如果对它们求和时分量是区间，那么它们的总和肯定是区间。

[人们可能在这点上不同意我的观点，但我看不出有任何理由说像 4+1 = 3+2 = 5 之类的话——以及必须做出的所有类似陈述——除非你假设区间尺度。在假设相邻值之间的所有差距都是等距离的假设之外，有什么基础可以认为总和类别标签是等价的？]

不要认为这是人们不应该添加比例项目的断言；总的来说，我认为这是一件非常合理的事情。但无论如何，一旦你这样做了，你不应该对调用 sum interval-scale 感到不舒服；你已经去过那里了。

（多么有趣的问题！我的回答是反思，其他人可能有有趣的相反观点。）

不。序数对 1 & 4 和 2 & 3 的总和为 5。但假设这些变量是编码的，例如，个体的功能流动性，其中 1 表示没有损伤，2 表示不需要帮助的损伤，3 表示需要帮助的损伤协助和 4 不动。这些代码有意义地代表了损害连续性的进展。但问题得到：

将“无损伤”和“不动”相加的想法不一定具有概念有效性（除了具有不同经历的两个人）。
sum=5的实质含义尚不清楚。
这些数字的平均值（即归一化总和）的含义，例如 2.5（1 和 4 或 2 和 3 的平均值）意味着什么？在这个例子中需要或不需要帮助？
第 1 对和第 4 对测量的个体中的一个将完成任何类型的比赛，但第 2 对和第 3 对最终都会跑一段距离。
还记得序数代码中的许多不同数量在序数上是相同的（即保持等级），但数量上会完全不同。例如，上面相同的四个值可能被编码为 0、1.5、7 和 92，然后总和和平均值都会发生变化，与 1、2、3、4 代码相比，结果总和中不会保留排序。

为了添加两个序数变量的编码数量，您必须做出两个假设：

1-任何两个相邻类别之间的距离在每个变量中都是相同的。也就是说，如果您将类别之间的距离衡量为“改变客户想法所需的努力”，那么您必须考虑将某人的想法从“非常不同意”变为“不同意”与将其从“不同意”改变所需的努力相同”到“中性”等。

2- 得分最小值和最大值对每个变量的影响是相同的。一个不适用的例子是这两个变量：“你喜欢这家公司提供的服务吗？” 和“你喜欢前台的糖果吗？”。当然，每个变量对整体评价的影响是有很大不同的。

如果您调整每个类别添加到全局标点符号的分数，则可以避免所有这些问题，因此您可以使用这两个变量：

“你喜欢这家公司提供的服务吗？” 100, 90, 30, 5, 0（您认为“同意”和“非常同意”是几乎相同的答案，“中立”是不好的结果，“不同意”和“非常不同意”是非常不好的）

“你喜欢前台的糖果吗？” 5, 4, 3, 2, 1（在这种情况下，您可能会认为第一个假设是真实的，但当然这个变量对您公司的全球形象的贡献远小于前一个）

另一个大问题是如何正确调整类别分数。在这种情况下我只能说......祝你好运，别忘了告诉我怎么做！

我想有足够的答案表明序数变量之和本身并不是一个定义明确的概念。但是 OP 提到了李克特量表，并且确实有人认为总结李克特项目（每个答案）是可以的，这导致可以被认为是一个区间数！参见李克特量表维基百科页面上关于评分和分析的讨论

其它你可能感兴趣的问题