离散数据和连续数据有什么区别?
离散数据和连续数据有什么区别?
离散数据只能取特定值。这些值可能有无数个,但每个值都是不同的,中间没有灰色区域。离散数据可以是数字的——比如苹果的数量——但它也可以是分类的——比如红色或蓝色,男性或女性,好或坏。
连续数据不限于定义的单独值,而是可以占据连续范围内的任何值。在任何两个连续数据值之间,可能有无数个其他值。连续数据本质上总是数字的。
有时将离散数据视为连续数据是有意义的,反之亦然:
例如,像高度这样的东西是连续的,但我们通常不太关心微小的差异,而是将高度分组到许多离散的箱中——即仅测量厘米——。
相反,如果我们计算大量的离散实体
——即经济中的米粒、白蚁或便士——我们可能会选择不将 2,000,006 和 2,000,008 视为
截然不同的值,而是将其视为附近的点一个近似的
连续体。
有时将数字数据视为分类数据也很有用,例如:体重过轻、正常、肥胖。这通常只是另一种分箱。
将分类数据视为连续数据很少有意义。
数据总是离散的。给定一个变量的值样本,n
该变量可以取的不同值的最大数量等于 n
。看到这个报价
所有实际样本空间都是离散的,所有可观察的随机变量都有离散分布。连续分布是一种数学构造,适合数学处理,但实际上不可观察。EJG Pitman (1979, p. 1)。
通常假设变量的数据来自随机变量。如果随机变量在一个范围内的任意两个不同点之间可以取无限多个可能的值,则该随机变量在一个范围内是连续的。例如,通常假定身高、体重和时间是连续的。当然,这些变量的任何测量都将是有限准确的,并且在某种意义上是离散的。
区分有序(即序数)、无序(即名义)
和二元离散变量很有用。
一些介绍性教科书将连续变量与数值变量混淆了。例如,计算机游戏的分数是离散的,即使它是数字的。
一些介绍性教科书将比率变量与连续变量混为一谈。计数变量是比率变量,但它不是连续的。
在实际实践中,当一个变量可以取足够多的不同值时,它通常被视为连续变量。
参考
- Pitman, EJG 1979。统计推断的一些基本理论。伦敦:查普曼和霍尔。注意:我在 Murray Aitkin 的书Statistical Inference: An Integrated Bayesian/Likelihood Approach 第 2 章的引言中找到了这句话
温度是连续的。可以是23度、23.1度、23.100004度。
性是离散的。你只能是男性或女性(无论如何在古典思维中)。可以用整数表示的东西,例如 1、2 等
区别很重要,因为许多统计和数据挖掘算法可以处理一种类型,但不能处理另一种。例如,在常规回归中,Y 必须是连续的。在逻辑回归中,Y 是离散的。
离散数据只能取某些值。
示例:一个班级的学生人数(不能有半个学生)。
连续数据是可以取任何值(在一个范围内)的数据
例子:
- 一个人的身高:可以是任何值(在人类身高范围内),而不仅仅是某些固定的高度,
- 比赛时间:您甚至可以将其测量到几分之一秒,
- 一只狗的体重,
- 一片叶子的长度,
- 一个人的重量,