它是一种单独的分布类型(例如:二项式、伯努利、多项式)还是可以以这种方式表示的任何分布?有人可以用一个简单的例子详细说明
分类分布是什么意思?
分类分布是伯努利分布对固定数量结果的推广。
等效地,这是多项分布的特例,其中“选择”的数量固定为 1。
因此,它有pdf:
总之,伯努利有,二项式有,多项式有,分类有。
分类变量具有有限的离散值集。示例包括性别(男性/女性)、国家、星球等。将其与连续变量进行对比,连续变量可以采用无限数量的不同值。示例包括重量、经度、距离等。
请注意,类似的信息有时可以以分类和连续的方式表达;例如,planet = earth
可以表示为distance to sun = 1 astronomical unit ≈ 150 million kilometers
。然而,实际上没有任何方法可以用行星来表示距离太阳 2 亿公里,因为那里没有行星(火星距离太阳 2.28 亿公里)。2.01 亿公里、202 公里等也是如此。就行星而言,您只能说这些距离planet = none
;你不能说planet = 4/3×earth
or .88×Mars
,因为没有有意义的方法来乘以行星或任何其他分类变量。就行星而言,这些距离将是无法区分的,但当然,当它们以连续变量的形式表示时,它们与太阳的不同距离是有意义的。
也可以用任意精度表示连续变量(例如,一个天文单位是 149,597,871 公里,而不是 1.5 亿公里)。相反,没有办法planet = earth
更准确地表达;地球就是地球,不多也不少。此外,如果planet
是一个名义变量,那么说任何其他行星比地球“多”或“少”是没有意义的。不过,它可以编码为有序(有序)变量——行星按照与太阳的距离、体积、卫星数量等进行排序。这些数字在它们自己的术语中都是连续的(或者至少计数是离散的但不是分类的),但不是在行星方面。例如,如果行星是按与太阳的距离或卫星的数量来排序的,mars > earth > venus
...... 如果行星按体积排序,earth > venus > mars
. 没有必要对分类变量进行排序,也许有些不能排序,但是添加顺序并不会降低它们的分类性。
正如维基百科所说,分类分布是伯努利分布对两个以上可能值的概括(伯努利分布是严格的二元分布)。伯努利分布也是二项分布的一个特例,但我不会将二项分布称为分类分布(它是离散的,而是一个计数变量,因此定义了值之间的距离)。多项分布可能与分类分布混为一谈,但Wikipedia 对此提出警告。