如何确定变量是否是分类变量?

机器算法验证 回归
2022-03-28 22:36:53

我正在查看变量与响应图,对于大多数观察结果来说似乎是分类的,但有些不是。

这是情节的图片。

在此处输入图像描述

是否有“异常值”数量的阈值来确定变量是否可以分类?

编辑:在图中,x是各个地区的税率(),是该地区房屋的中值。×100y

2个回答

税率不是绝对的,它们是连续的。税率可能会有所不同——例如,我相信纽约市的销售税是 8.825%。

您拥有的数据似乎只有特定的税率。但这是您的数据的一个特征,而不是变量的潜在特征。分类变量不能在其他值之间取值。例如,“出生国家”是分类的。你出生在某个国家。说(例如)美国介于挪威和捷克斯洛伐克之间是没有意义的——这甚至没有错,这是荒谬的。

一个单独的问题是您应该如何对这些数据进行建模。我认为线性回归是一个很好的第一次尝试,那么你应该看看残差图。

看起来好像沿 X 轴绘制的变量只能采用某些离散值。

但是......分类变量是在样本空间中取值的变量,其中大小和顺序都没有任何意义。示例:一项医学研究可能会记录患者的性别(男性/女性),这是分类的.. 年龄(数字)......以及他们服用的几种可能的非处方感冒药中的哪一种 - 也是分类的。

一个分类变量可能有无限的支持——想象一下拉丁字母表中的字母序列——任意长度。你有无数种可能性——所有的可能性都是分类的,因为没有自然的方法来衡量它们之间的距离,或者对它们进行排名(尽管我们可以想出一些)。

相反,一个数字变量可以承认离散数量的可能结果——例如特定化学元素的光谱。