二进制数据可以是序数吗?

机器算法验证 序数数据 二进制数据 测量 分类数据
2022-03-31 14:42:04

二进制数据通常被称为名义上的子类别,尤其是在女性/男性、吸烟者/非吸烟者等示例中。但是,二进制数据具有通过/失败、正确/错误、缺席/存在等值, 似乎给它的值一些权重。这不像在性别的例子中,两个值是相等的,并且主要在名义上和其他与上下文相关的特征上有所不同。相反,这种类型的二进制数据清楚地表明一个值意味着什么,另一个意味着什么。

在这种区别的情况下,二进制可以被认为是序数吗?如果是,通常用于此类数据的统计测试是什么?另外,关于这个案例有什么有趣的书籍或论文吗?

2个回答

二是一个微不足道的数字,几乎没有复数,而留给自己的设备的两分制只需要在它站起来之前进行区分:当只有一个时,思考等间隔或等比是否有意义是没有必要的要考虑的间隔或比率,或者当一对只能有一个序列时,排名是否有意义;正如@Tim 所解释的那样,您可能想要对数据执行的所有操作都不受其表示的影响。

只有对于二进制变量的外部关系,这些事情才重要。Jaccard 指数是衡量两个个体之间相似性的指标,每个个体具有由二元变量表示的多个属性您计算两者都具有“1”的属性数量与具有“1”的属性数量的比率。显然,编码为“0”和“1”在这里并不是任意的(尽管我们可以一次将所有变量都换一次,并对 Jaccard 指数的计算进行相应的更改)。这是@ttnphns 谈论“序数二分变量”的情况,这似乎很公平。可以在Faith 等人中找到一个例子。(2013 年),“, 6141,其中 Jaccard 指数用于衡量不同时间点个体肠道菌群组成的相似性——共同细菌菌株的数量与发现的菌株总数的比率。度量标准的选择似乎是明智的——为什么要考虑两个时间点都不存在的所有不同应变?甚至可以编制一份详尽的清单吗?

在变量经常组合成指数、分数或其他任何东西的各种方式中,可能会发现一个更单调的例子。例如,用作描述性统计或回归中的预测变量。要计算Charlson 合并症指数,您需要将表示心肌梗塞和充血性心力衰竭等疾病的二分变量相加。许多条件用“0”和“1”编码;但由于偏瘫对总分的贡献为 2,恶性肿瘤为 6,我很想将这些作为区间尺度二分变量。

不用说,在这种情况下如何对齐不同的二进制尺度取决于做出适合手头工作的决策,而不是以某种方式直觉每个单独尺度的真实性质——一个编码为“1”的属性,用于计算一个 Jaccard 指数可能被编码为“0”以计算另一个。

上面的段落举例说明了这种规模类型的业务总是如此。Stevens 指出了数据表示方式的哪些特征需要被认为是有意义的与您在分析期间执行的操作类型之间的各种关系:

首先,尺度之所以成为可能,仅仅是因为我们可以对对象的方面所做的事情与数列的属性之间存在某种同构。在处理对象的方面时,我们调用经验操作来确定相等(分类)、排序以及确定对象方面之间的差异和比率何时相等。传统的数字系列产生类似的操作:我们可以识别数字系列的成员并将它们分类。我们知道他们按照惯例给出的顺序。我们可以确定相等的差异,如8-6=4-2, 和相等的比率, 如 84=63. 数列的这些属性与我们对对象执行的某些经验运算之间的同构性允许使用该数列作为模型来表示经验世界的各个方面。

这是一个重要的一般原则的一个例子:你不希望关于如何写下来的任意或常规决定对你的结论产生重大影响。

所达到的规模类型取决于所执行的基本经验操作的特征。这些操作通常受到被缩放事物的性质和我们选择的程序的限制,但是,一旦选择,这些操作将确定最终会产生表 1.1 中列出的一个或另一个比例[名义、序数、间隔和比率]。

因此,例如,您不能在五分制上的平均分数声称量表点之间的间隔无关紧要:必须给出一些东西(请注意,这很可能是要求而不是平均 - 见例如这里)。将此禁令与首先需要确定真正的秤类型然后考虑合适的分析方法的规定混淆是错误的。请参阅数据类型(名义/有序/间隔/比率)是否真的应该被视为变量类型?.

序数数据的一般思想是不同类别有一定的顺序或等级,并且

除了在一组数据点上建立排名的能力( https://en.wikipedia.org/wiki/Ordinal_data之外,特定值的精确数值没有任何意义

使用序数数据,您的类别是有序的,例如一个<b<C,所以你对类别之间的关系感兴趣,一个<bb<C, 所以一个<C. 在这种情况下,排序很重要,如果您以随机顺序重新分配标签,您将丢失重要信息。

对于二进制数据,您只有两个类别,因此知道X>是的为您提供与知道相同的信息¬(X*<是的*), 在哪里X*是的*X是的用反向编码。在这种情况下,一个类别是另一个类别的补充,因此它们的排序无关紧要。

例如,通过更改逻辑回归中的标签,您只会得到反转的系数符号,这就是我们所期望的,更多信息请参见最近关于逻辑回归的问题(查看@Scortchi对链接问题的评论)。

另一方面,正如@ttnphns 所注意到的,有一些相似性度量对二进制类别的编码做出假设,例如Jaccard 索引,在这些情况下,类别的编码方式会有所不同。类别的编码(例如01或者-1+1) 在许多情况下也可以使结果的解释更容易(正面或负面影响)。在这两种情况下,不同之处在于变量的编码而不是它们携带的信息。