机器算法验证 - 如何在 SPSS 中关联序数和名义变量？ - 吾爱随笔录

如何在 SPSS 中关联序数和名义变量？

机器算法验证相关性 spss 分类数据李克特

2022-03-12 22:48:51

我在 SPSS 中导入了一个 Excel 文档，其中包含大约 500 个条目。使用李克特量表定义了三列。我已经用 0 到 4 的数值替换了这些刻度的文本标签（因此，三个数值变量是有序的）。另外两列只是文本，例如位置（家庭、通勤等）；这些是名义变量。

现在，我想将这些变量相互关联，以找到有意义的模式。（特别是，我想将我的序数变量与我的名义变量相关联，但我不知道如何。）我如何在 SPSS 中做到这一点？此外，我想根据条目的总数来测试一些变量的值。

4个回答

你应该看看多重对应分析。这是一种揭示分类数据中的模式和结构的技术。这是一些人所说的“法国数据分析”的一个例子

在 SPSS 中，您可以使用CORRESPONDENCE命令。如果您更喜欢菜单，可通过“分析 -> 数据缩减 -> 对应分析”获得。

但是，在此之前，先从变量之间的交叉表开始。在 SPSS 中调用命令CROSSTABS或单击“分析 -> 描述性统计 -> 交叉表”

如果您正在读取大量需要转换为数字的字符串数据，您可能需要查看AUTORECODE命令 ( )。Transform > Automatic Recode

参数和非参数相关性可从Analyze > Correlate菜单中获得第一眼。有一些工具可用作颜色编码显着和/或大相关性的扩展。还有一个用户发布的工具，用于生成相关表的图形表示，您可以在SPSS 社区网站的图形论坛中找到该工具。

尝试分类回归（最优缩放）。

名义变量没有尺度。“离婚”离“已婚”有多远？除非您有另一种措施来帮助将名义变量水平按顺序排列并彼此保持距离，否则没有意义。

序数变量也没有尺度。“公平”离“好”有多远？序数排名有顺序但没有距离。您可以将它们放在一个相对于其他一些相关变量的尺度上。

因此，与序数变量或名义变量没有相关性，因为相关性是衡量尺度变量之间关联的指标。

但是，最佳缩放过程会根据变量水平与因变量的关联为名义变量（和序数）创建一个比例。此语法将在尺度因变量和名义自变量之间生成相关矩阵。

GET
  FILE='C:\Program Files\IBM\SPSS\Statistics\22\Samples\English\car_sales.sav'.
DATASET NAME DataSet1 WINDOW=FRONT.

DATASET ACTIVATE DataSet1.
CATREG VARIABLES=sales manufact model type
  /ANALYSIS=sales(LEVEL=SPORD,DEGREE=2,INKNOT=2) WITH manufact(LEVEL=NOMI) model(LEVEL=NOMI) 
    type(LEVEL=NOMI)
  /DISCRETIZATION=sales(RANKING) manufact(RANKING) model(RANKING) type(RANKING) 
  /PRINT=CORR QUANT(manufact model type)
  /PLOT=TRANS(manufact model type)(20).

请注意，我还包括了转换变量的量化和绘图。除非您还可以理解为名义（或有序）变量创建的新尺度，否则您无法理解相关系数。

CATREG 是 SPSS 的一个非常强大和丰富的功能。也可以看看：

找到序数和名义变量之间关系的另一个选择是使用决策树。您不会得到相关系数，但该算法将根据与另一个变量的关联对名义变量进行分组并拆分有序变量。

使用 CRT 方法并选择变量重要性（输出>统计），您可以生成每个独立（预测）变量与因（目标）变量的关联的排名。重要性是关联性的度量，例如相关性。

如果您只对一个因素水平感兴趣（例如 [Marital status] = 'Married'），请为新变量使用虚拟编码，以便 Married = 1 如果 Marital status = 'Married' 否则为 0。使用虚拟变量，您正在创建两个群体：已婚和其他一切。您可以将虚拟变量用作比例变量，因为您创建的组在比例上，相隔一个单位。

用于Transform > Automatic Recode制作两个数字变量，它们携带两个字符串变量的信息。
运行新变量的频率表，并确保字符串属性正确。例如检查拼写错误（commute vs communte）、复数/单数混淆（cars vs car）和语法差异（drive vsdriving）。通过聚合它们来整理它们，或者这些变体中的每一个都将被视为其唯一的级别。
有 5 个级别的李克特量表可以安全地视为序数变量，而从字符串变量生成的其他两个变量可能是名义变量。测试关联性
- Ordinal vs. ordinal，你可以考虑 Spearman 的相关系数。( Analyze > Bivariate) 您需要选中“Spearman”复选框才能获得统计信息。
- 标称与标称，可能是卡方检验。（Analyze > Descriptive statistics > Crosstab将变量放入行和列中，然后单击Statistics并检查Chi-square）。
- 名义与有序，您可以考虑 Kruskal-Wallis。（Analyze > Non-parametric > Legacy dialog > K-independent samples。将李克特变量放入Test variable list并将名义变量放入Grouping variable）。

现在，我想将它们之间的这些变量关联起来，以找到有意义的模式。如何在 SPSS 中执行此操作？

小心寻找有意义的模式。如果您只是运行测试并为任何看似合理的事情编造一个理由，那么您只是被统计数据玩弄了。相反，我建议您在接触数据之前起草一些问题并就它们应该如何关联/关联做出一些假设。如果你只是想探索潜在的关系，那么严格把它当作一种假设生成活动，并使用其他一些数据来统计检验这种关联。

此外，我想根据条目的总数来测试一些变量的值。

对不起，我不明白这是什么意思。

其它你可能感兴趣的问题

上一篇解释 Fisher 与 Neyman-Pearson 框架中的 p 值下一篇为什么我的 p 值这么高？