分类变量、名义变量还是连续变量?

数据挖掘 分类数据
2022-03-10 12:00:39

我试图了解哪种测量水平最适合描述“公寓中的房间数量”特征。

首先,我认为这不是一个连续的特征,因为像 1.42 这样的理性值是没有意义的。

要确定一个特征是分类特征还是名义特征,我们应该尝试找到值之间的顺序。这是我的问题:我们是否应该寻找与响应特征相关的订单(在我的例子中是“房产价格”)?

我们可以说“一室公寓”比“两室公寓”便宜,依此类推。但情况并非总是如此。一般来说,这可能是真的,但在某些情况下,市中心的“一室公寓”比远处的要贵得多。

因此,无法决定选择哪种表示形式 - 分类的或名义的。

2个回答

我不知道你从哪里得到这个特定的分类方案(连续的、分类的、名义的),但值得一提的是,这不是一个很好的数据类型分类方案。您已经遇到过一个不适合它们的数据类型(计数数据/自然数)的示例。

还值得一提的是,很多人会交替使用“名义”和“分类”来描述没有自然排序的离散数据类型。描述具有自然排序的离散数据的最广泛接受的术语可能是序数数据。

在这种情况下,“公寓中的房间数量”具有明确的顺序。在非常真实和直观的意义上,五房公寓比两房公寓的房间更多。一居室公寓的房间比三居室公寓少。谈论一间公寓的房间数量比另一间公寓多或少是有道理的,如果我们想知道这种排序在某种程度上是否重要,我们需要在分析中保留排序。

我会坚持连续。

数字 1.42 可能意味着您可能有一个单人房间,但面积比平均房间大得多。

如果您需要与他人共用厨房和浴室,您甚至可能会有一些零头。

与您不知道如何订购的另一个类别相比,这些东西可能更容易放入一个数字中。