机器算法验证 - 为什么 XX 大写，yy 小写？ - 吾爱随笔录

机器算法验证机器学习分类 Python 交叉验证 scikit-学习

2022-03-26 01:16:21

为什么大多数时候（在许多网站、文章或演示中）特征变量（列）用大写的“X”表示，而目标变量是小写的“y”？

在我看来更像是一个编码标准。前任。

X = df.iloc[:, :-1]
y = df.iloc[:, -1]

只是好奇，因为我几乎从不只使用一个字母来表示存储有意义数据的变量。

2个回答

关于为什么和是数学概念中的流行选择的问题已在历史科学和数学 SE网站中得到解答：为什么 X 和 Y 通常用作数学占位符？（简而言之：因为笛卡尔是这么说的！） $X$ $y$

在线性代数方面，使用大写拉丁字母表示矩阵（例如设计矩阵）和小写拉丁字母表示向量（响应向量 ）是极为常见的。关于在统计学中使用矩阵的标准教科书（例如Searle的 Matrix Algebra Useful for Statistics、Harville 的Matrix Algebra From a Statistician's Perspective和Gentle 的Matrix Algebra: Theory, Computations, and Applications in Statistics）也使用了这个约定，所以它有成为表示事物的标准方式。 $X$ $y$

在您收集有关特征和目标变量的任何数据值之前，可以将这些变量视为随机变量，前提是使用随机机制来选择将生成这些值的受试者。在这种情况下，这些变量的正确表示法是 Y 和 X（即，两者都使用大写字母）。

回想一下，随机变量的值在收集数据之前是未知的，尽管它的长期行为可以使用概率定律来预测。但是，一旦我们收集了数据，该值就会变得已知。

在收集了所有需要的特征变量和目标变量的数据值之后，您可以使用小写符号来表示与目标变量 (y) 和特征变量 (x) 对应的数据值的集合。如果您有单个特征变量，则 x 是数据值的向量。如果您有多个特征变量，则 x 是一个数据值矩阵，每个特征变量有一列。通常，y 是数据值的向量。

所以大写表示法是指“随机（因此未知）”，而小写表示法是指“已知”。或者，大写表示法是指“收集数据之前”，而小写表示法是指“收集数据之后”。

可悲的是，文献在使用这种表示法方面完全不一致，这就是为什么你会看到你在问题中提到的 (y,X) 表示法。

其它你可能感兴趣的问题