机器算法验证 - 如何确定变量是否是分类变量？ - 吾爱随笔录

机器算法验证回归

2022-03-28 22:36:53

我正在查看变量与响应图，对于大多数观察结果来说似乎是分类的，但有些不是。

这是情节的图片。

在此处输入图像描述

是否有“异常值”数量的阈值来确定变量是否可以分类？

编辑：在图中，x是各个地区的税率（），是该地区房屋的中值。 $\times 100$ y

2个回答

税率不是绝对的，它们是连续的。税率可能会有所不同——例如，我相信纽约市的销售税是 8.825%。

您拥有的数据似乎只有特定的税率。但这是您的数据的一个特征，而不是变量的潜在特征。分类变量不能在其他值之间取值。例如，“出生国家”是分类的。你出生在某个国家。说（例如）美国介于挪威和捷克斯洛伐克之间是没有意义的——这甚至没有错，这是荒谬的。

一个单独的问题是您应该如何对这些数据进行建模。我认为线性回归是一个很好的第一次尝试，那么你应该看看残差图。

看起来好像沿 X 轴绘制的变量只能采用某些离散值。

但是......分类变量是在样本空间中取值的变量，其中大小和顺序都没有任何意义。示例：一项医学研究可能会记录患者的性别（男性/女性），这是分类的.. 年龄（数字）......以及他们服用的几种可能的非处方感冒药中的哪一种 - 也是分类的。

一个分类变量可能有无限的支持——想象一下拉丁字母表中的字母序列——任意长度。你有无数种可能性——所有的可能性都是分类的，因为没有自然的方法来衡量它们之间的距离，或者对它们进行排名（尽管我们可以想出一些）。

相反，一个数字变量可以承认离散数量的可能结果——例如特定化学元素的光谱。

其它你可能感兴趣的问题