定量数据、定性数据或两者兼而有之是名义的、有序的和二元的?

机器算法验证 分类数据 数据集 序数数据 二进制数据
2022-03-03 06:42:40

我正在了解数据类型,我需要一些帮助:

在此处输入图像描述

如果您查看上面的图片(取自此处),它具有如下数据类型:

  • 定量(离散、连续)
  • 定性(名义(N),有序(O),二进制(B))。

在此处输入图像描述

但是,如果您查看下一张图片(来自此处),则类别为:

  • 定量(离散(NOB))
  • 定性的

一张图片在定性下有 NOB,另一张在定量下有它。哪一个是正确的?

4个回答

正如他们所解释的那样,这些类型很容易混淆。

例如,二进制数据,正如在许多介绍性文本或课程中介绍的那样,听起来肯定是定性的:是或否,幸存或死亡,存在或不存在,男性或女性,等等。但是给这两种可能性打分 1 或 0,那么一切都是完全量化的。这样的评分是各种分析的基础:女性的比例只是男性0分和女性1分的平均值。如果我遇到 7 个女性和 3 个男性,我可以平均 1, 1, 1, 1, 1, 1, 1, 0, 0, 0 得到比例 0.7。使用二元响应,您就有了一条广阔的道路,然后是 logit 和 probit 回归,等等,重点关注比例、分数或概率的变化,或者类似的东西,以及其他任何控制或影响它的东西。没有人需要担心编码是任意的。男性的比例只是1减去女性的比例,

在考虑名义数据或有序数据时几乎也是如此,因为对此类数据的任何分析都取决于首先计算每个类别中有多少,然后您可以根据需要进行量化。早年首次遇到的饼图和条形图显示了这一点,因此令人费解的是有多少帐户在解释中忽略了这一点。

换句话说,您可以将原始数据或原始数据分类为首次报告的数据以及出现在电子表格或数据库的单元格中。但它的原始形式不是一成不变的。想象一下,阅读太多肤浅的教科书,会因为困惑而死亡。这可以写在证书上,但统计分析永远不会止步于此。有一个计数汇总(一个地区和一个时间段内有多少这样的死亡),降低了比率(相对于处于危险中的人口有多少)等等。

因此,数据的首次编码方式很少会阻止它们以其他方式使用和转换为其他形式。数据的词源在这里揭示了:从字面上翻译原始拉丁语,它们是你的,但没有规则禁止将它们转换为许多其他形式。

总而言之,我找不到一张把所有东西放在一起的照片,所以我根据我一直在研究的东西做了一张。将测量尺度与数据类型放在同一个图表上让我感到困惑,所以我试图证明那里有区别。

在此处输入图像描述

感谢您的帮助和想法!问候, 倾斜

这取决于您所说的“定量数据”和“定性数据”是什么意思。

我认为您引用的两个网站使用的术语不同。例如,假设您问人们:

Did you vote for Obama, Romney, someone else or no one in the presidential election?

这是什么数据?变量是名义上的:它只是名称,没有顺序。但是很多人会称之为量化,因为关键是有多少人选择了哪个候选人。这与定性数据相反,定性数据可能是关于他们最喜欢奥巴马(或罗姆尼或任何人)的采访记录。

更好的看待它的方法是清楚地区分定量数据和定量变量。

这些图表都不正确。它们相当荒谬,你感到困惑是对的(除了矛盾)。

他们似乎将基本变量类型和变量选择的想法混为一谈来对系统进行建模(使用pdf)。

有 3 种基本变量类型(不包括子类型):名义型(分类/定性)、有序型和连续型(数值型、定量型)。序数具有定性和定量的性质。

属性并不是真正的基本类型,但通常在选择适当的控制图时以这种方式进行讨论,其中人们正在选择用于建模系统的最佳 pdf。这有时被称为“属性数据”,但它的类型是名义上的(又名分类等)。就像尼克提到的那样,我们计算名词,所以它可能与数字类型混淆,但事实并非如此。