我想知道根据定义,分类数据是否只能采用有限或可数无限多个值?没有更多的值,即不是无数的值?
相关问题:分类变量的分布总是离散分布还是连续分布?
我想知道根据定义,分类数据是否只能采用有限或可数无限多个值?没有更多的值,即不是无数的值?
相关问题:分类变量的分布总是离散分布还是连续分布?
“分类”不是一个定义明确的数学术语,所以要回答这个问题,我们必须看看这个词是如何被使用的。它与“序数”、“间隔”和“比率”形成对比。理解主要区别的一种方法是根据允许的值重新表达组。在后三种情况下,有一个必须保持的顺序,因此所有重新表达都必须是单调的(保持顺序)。对于分类变量,任何双射(包括排列)都可以:
除此之外,任何事情都与名义[分类]规模有关。
(史蒂文斯,在维基百科文章中引用。)
“分类”的另一个概念是每个结果都必须相互区分。这有力地表明任何概率测量必须是完全离散的:也就是说,所有子集都是可测量的,这意味着每个类别都有自己明确定义的概率。(这不是连续分布的情况。)
这似乎表明类别的数量应该是有限的或最多是可数的,但这在文献中并不明显。例如,分类变量的原型示例是一组名称。 任何有限字母表上所有可能名称的集合是可数的,但不是有限的。因此,允许可数无限集是分类的很有用。例如,如果我们正在研究给婴儿取的名字,让样本空间包含所有可能的名字(而不是我们知道的所有名字)是很方便的。
一个不太现实但仍然可以想象的分类变量示例是使用实数作为名称的示例。实际上,这样的变量会忽略该集合上所有常见的数学结构。我认为这种用法没有任何问题,但值得观察的是,概率公理意味着在这种情况下有效的任何概率分布都会(a)为每个实数分配一个非负值,并且(b)将分配一个非零值到最多可数无穷个实数。
一个涉及支持无限甚至不可数分类随机变量的不可数样本空间的应用是随机图的研究。要了解图的某些属性的增长率,我们需要考虑 0、1、...、, ... 节点,因此允许图有可数个节点是很方便的。在这个集合上定义的随机变量可以有多种类型。例如,平均顶点度数(如果有限)可以被认为是比率类型;总顶点度数可以被认为是序数类型(因此——通过忘记排序——是可数离散变量的一个很好的例子)。如果我们还允许一个图有任意多的边并且对它的连通分量感兴趣,那么我们就会有一个自然发生的不可数类别(因为每个连通分量决定了它包含的节点子集,并且有无数个可数集的子集)。
总而言之,允许分类值获得不可数的无限可能值是合理的,同时认识到它们中最多可数个可能具有正概率。 这一定是离散分布,因为所有子集都是可测量的,而连续分布则不然。
好吧,这是我对您问题的(诚然不完美)理解的答案。
“分类数据”一开始是一个模糊且有问题的术语。类似于淫秽材料的“我一看到就知道”的定义。有一些非常明确的分类数据案例,其中变量的值属于少数明确定义的类别。
除此之外,还有龙。
在某些时候,您会获得足够多的类别,以至于您的“分类”变量可能会被视为连续变量。或者,使用主题知识或分布描述,您可以将连续变量分解为分类块并将其视为分类。
因此,您的问题实际上有两个答案:
理论答案:不。您可以有无限多的类别,但出于某种原因决定不将其称为连续变量。如果您允许完全无界变量的基于小数的类别,那么我没有理由看到它不会是无限的。
我不确定这会多久出现一次。至少根据我的经验,很少见。
应用答案:大多数可以合理地称为分类数据的事物的基数都大大低于N的基数。如上所述,也有例外,通常会受到模糊判断的影响。
分类数据是离散的 - 否则很难为数据分配类别。
我的看法是:自然数是离散的,因此是分类的。它们也是序数和区间数据,但也是分类数据。由于自然数是可数无限的,我们看到有分类变量可以取可数无限的值。但是,这并不意味着这适用于所有分类变量。