数据类型(名义/有序/间隔/比率)真的应该被视为变量类型吗?

机器算法验证 数据集 序数数据 分类数据 比率
2022-03-07 15:32:50

例如,这里是我从标准教科书中得到的定义

变量 - 总体或样本的特征。前任。股票价格或测试等级

数据 - 实际观察值

因此,对于两列报告 [名称 | 收入] 列名将是变量和实际观察值 {dave | 100K} , {吉姆 | 200K} 将是数据

因此,如果我说 [Name] 列是名义数据,而 [income] 是比率数据,那么我将其描述为一种变量而不是像大多数教科书那样的一种数据会更准确吗?我知道这可能是语义,这很好,这就是它的全部。但我担心我可能会在这里遗漏一些东西。

2个回答

史蒂文斯的规模类型学不一定是变量的某些固有特征,甚至也不一定是数据本身,而是我们如何处理信息——我们用它来表示什么。

在某些情况下,完全相同的值可能被视为比率、区间、序数或名义值,具体取决于我们对它的处理方式——这取决于我们赋予这些值的含义,这可能会从一个分析更改为下一个分析。史蒂文斯的类型学有一定的价值,但它并没有过分规范。

这个关于尺度作为意义的重要性的问题至少可以追溯到 Lord (1953),他提供了一个例子,即同一组数字同时存在名义和区间解释。

Velleman 和 Wilkinson (1993) 更清楚地说明了这一点,他们提供了一个例子,人们在进入招待会时收到连续编号的门票,其中一张门票会获得奖品。根据门票上数字的用途,它们在所有四个尺度上都有解释。

所以,例如“我赢了吗?” 是一个将数字视为名义数字的问题,而“我是否来得太早而无法获得中奖彩票?” 是一个将其视为序数的问题;另一方面(我不认为这个在论文中)使用 5 个随机票号来估计房间里的人数会将它们视为比率(例如,如果有 4 个随机抽取的数字得到安慰奖,你总共有 5 个随机数来估计总出席人数)。

他们争辩说“好的数据分析不假设数据类型”,“史蒂文斯的类别不描述数据的固定属性”,“史蒂文斯的类别不足以描述数据规模”和“统计程序不能按照史蒂文斯的标准进行分类”(确实每个语句也是一个章节标题)。

Tukey 在几个地方也提出了批评(例如,在 Mosteller 的第 5 章和 Tukey 1977 年的著作Data analysis and regression中);Mosteller 和 Tukey 提供了一种类型学 - 名称等级(有序标签)、等级 (从 1 开始,可能代表最大或最小)、计数分数(以零和一为界,包括百分比)、计数(非负数)整数)、金额(非负实数)、余额(无界、正值或负值)。

在我自己的工作中,我见过一些情况,其中严重的分析问题是由于人们未能意识到与水平相关的变量(有时称为“存量”变量)和流量之间的巨大差异- 这些类型的一个简单示例就是差异在适合于在每个周期序列中的储罐中实际水量以及流入其中的水量的分析类型中。这些(在某些情况下)都是 Mosteller 和 Tukey '数量'类型的子类别(在这些相同的情况下,史蒂文斯方案中的两个比率变量),表明类型学问题可能非常微妙,但仍然可以严重影响适当的分析。

PFVelleman 和 L.Wilkinson (1993),
“名义、有序、区间和比率类型学具有误导性”
,美国统计学家,卷。47号 1 pp.65-72

(工作版本似乎可在此处的第二作者网页上获得

Lord, F. (1953),
“关于足球数字的统计处理”,
美国心理学家第 8页,第 750-751 页

(这篇论文的年份在我链接到的 Velleman 和 Wilkinson 论文版本的参考文献中给出错误,但在论文正文中正确引用)

数据的类型与变量的类型相关但不相同。大多数情况下,它们是相同的,但不必如此。

例如,如果您从正态分布中收集 N 个样本。你会认为这是一个数字(比率或比例)数据。但我也可以说它是一个具有 N 个不同类别的分类变量,每个类别的频率为 1。它看起来很愚蠢,但它也是一个有效的变量。