为什么大多数时候(在许多网站、文章或演示中)特征变量(列)用大写的“X”表示,而目标变量是小写的“y”?
在我看来更像是一个编码标准。前任。
X = df.iloc[:, :-1]
y = df.iloc[:, -1]
只是好奇,因为我几乎从不只使用一个字母来表示存储有意义数据的变量。
为什么大多数时候(在许多网站、文章或演示中)特征变量(列)用大写的“X”表示,而目标变量是小写的“y”?
在我看来更像是一个编码标准。前任。
X = df.iloc[:, :-1]
y = df.iloc[:, -1]
只是好奇,因为我几乎从不只使用一个字母来表示存储有意义数据的变量。
关于为什么和是数学概念中的流行选择的问题已在历史科学和数学 SE网站中得到解答:为什么 X 和 Y 通常用作数学占位符?(简而言之:因为笛卡尔是这么说的!)
在线性代数方面,使用大写拉丁字母表示矩阵(例如设计矩阵)和小写拉丁字母表示向量(响应向量 )是极为常见的。关于在统计学中使用矩阵的标准教科书(例如Searle的 Matrix Algebra Useful for Statistics、Harville 的Matrix Algebra From a Statistician's Perspective和Gentle 的Matrix Algebra: Theory, Computations, and Applications in Statistics)也使用了这个约定,所以它有成为表示事物的标准方式。
在您收集有关特征和目标变量的任何数据值之前,可以将这些变量视为随机变量,前提是使用随机机制来选择将生成这些值的受试者。在这种情况下,这些变量的正确表示法是 Y 和 X(即,两者都使用大写字母)。
回想一下,随机变量的值在收集数据之前是未知的,尽管它的长期行为可以使用概率定律来预测。但是,一旦我们收集了数据,该值就会变得已知。
在收集了所有需要的特征变量和目标变量的数据值之后,您可以使用小写符号来表示与目标变量 (y) 和特征变量 (x) 对应的数据值的集合。如果您有单个特征变量,则 x 是数据值的向量。如果您有多个特征变量,则 x 是一个数据值矩阵,每个特征变量有一列。通常,y 是数据值的向量。
所以大写表示法是指“随机(因此未知)”,而小写表示法是指“已知”。或者,大写表示法是指“收集数据之前”,而小写表示法是指“收集数据之后”。
可悲的是,文献在使用这种表示法方面完全不一致,这就是为什么你会看到你在问题中提到的 (y,X) 表示法。