我在一本书中读到“统计概念简介 [3 ed.] p.8):
数值变量是定量变量。数值变量可以进一步分类为离散的或连续的。离散变量被定义为只能取特定值的变量。例如,一个家庭中的孩子数量只能采用某些值。许多值是不可能的,例如负值(例如,Joneses 不能有 -2 个孩子)或十进制值(例如,Smiths 不能有 2.2 个孩子)。相反,连续变量被定义为在给定足够精确的测量仪器的情况下,可以在一定范围内取任何值的变量。
问题:这是否意味着离散变量不能是负数?如果离散变量不能是负数,请解释为什么?
我在一本书中读到“统计概念简介 [3 ed.] p.8):
数值变量是定量变量。数值变量可以进一步分类为离散的或连续的。离散变量被定义为只能取特定值的变量。例如,一个家庭中的孩子数量只能采用某些值。许多值是不可能的,例如负值(例如,Joneses 不能有 -2 个孩子)或十进制值(例如,Smiths 不能有 2.2 个孩子)。相反,连续变量被定义为在给定足够精确的测量仪器的情况下,可以在一定范围内取任何值的变量。
问题:这是否意味着离散变量不能是负数?如果离散变量不能是负数,请解释为什么?
连续变量和离散变量之间的差异不像自然数和实数之间的差异那样具有数学本质。这只是实用性问题:我们使用不同的工具来解决每一个问题,因为我们有兴趣回答不同的问题。
基本上,在离散变量中,我们对每个值的频率感兴趣,但在连续变量中,我们只对区间的频率感兴趣。然后,我们将两个或多个案例获得相同值的变量视为连续变量,这只是一个轶事 - 不太可能和/或无趣 - 我们将其建模为能够在一个区间内获得任何实际值。否则,我们将变量建模为仅具有有限或可数可能值的离散变量。
例如:货币数量(价格、收入、GDP 等)通常被建模为连续变量。然而,它们实际上只能取一组可数的值,因为我们只是记录了精确到一定精度的货币值——通常是 1 美分。
一些欧元区国家以前的货币价值低于 1 欧分(例如西班牙比塞塔和意大利里拉)。在那些国家,美分早就被废弃了,所有的价格和工资都是自然数,但是当欧元被引入时,它们得到了几个小数。有时我的学生会说比塞塔价格是离散变量,而欧元价格是连续变量,但这显然是错误的,因为我们对相同的问题感兴趣并且对两者使用相同的统计工具。
总而言之,回到问题:离散变量和连续变量之间的区别只是为了方便,即使变量取负值,您也可以将变量视为离散变量。你只需要它取足够少的值来对每个值的频率感兴趣。