我正在查看变量与响应图,对于大多数观察结果来说似乎是分类的,但有些不是。
这是情节的图片。
是否有“异常值”数量的阈值来确定变量是否可以分类?
编辑:在图中,x
是各个地区的税率(),是该地区房屋的中值。y
我正在查看变量与响应图,对于大多数观察结果来说似乎是分类的,但有些不是。
这是情节的图片。
是否有“异常值”数量的阈值来确定变量是否可以分类?
编辑:在图中,x
是各个地区的税率(),是该地区房屋的中值。y
税率不是绝对的,它们是连续的。税率可能会有所不同——例如,我相信纽约市的销售税是 8.825%。
您拥有的数据似乎只有特定的税率。但这是您的数据的一个特征,而不是变量的潜在特征。分类变量不能在其他值之间取值。例如,“出生国家”是分类的。你出生在某个国家。说(例如)美国介于挪威和捷克斯洛伐克之间是没有意义的——这甚至没有错,这是荒谬的。
一个单独的问题是您应该如何对这些数据进行建模。我认为线性回归是一个很好的第一次尝试,那么你应该看看残差图。
看起来好像沿 X 轴绘制的变量只能采用某些离散值。
但是......分类变量是在样本空间中取值的变量,其中大小和顺序都没有任何意义。示例:一项医学研究可能会记录患者的性别(男性/女性),这是分类的.. 年龄(数字)......以及他们服用的几种可能的非处方感冒药中的哪一种 - 也是分类的。
一个分类变量可能有无限的支持——想象一下拉丁字母表中的字母序列——任意长度。你有无数种可能性——所有的可能性都是分类的,因为没有自然的方法来衡量它们之间的距离,或者对它们进行排名(尽管我们可以想出一些)。
相反,一个数字变量可以承认离散数量的可能结果——例如特定化学元素的光谱。