人们在机器学习中使用“输入空间”、“特征空间”、“样本空间”、“假设空间”、“参数空间”这些术语。
谁能用一个具体的例子来解释这些术语,比如sklearn MNIST 数据集?,它有 1797 个样本、10 个类、8*8 维度和 17 个特征。
请不要泛泛而谈。
例如,在这种特殊情况下,特征空间是 17 个元素 {0, 1, ..., 16} 的集合吗?
人们在机器学习中使用“输入空间”、“特征空间”、“样本空间”、“假设空间”、“参数空间”这些术语。
谁能用一个具体的例子来解释这些术语,比如sklearn MNIST 数据集?,它有 1797 个样本、10 个类、8*8 维度和 17 个特征。
请不要泛泛而谈。
例如,在这种特殊情况下,特征空间是 17 个元素 {0, 1, ..., 16} 的集合吗?
我们将讨论每个术语。
输入空间
它包含模型的所有可能输入。假设模型接受一个向量,, 在哪里,那么我们可以有输入。这构成了“输入空间”。见这里。
对于 MNIST 数据集,图像的尺寸为 8 * 8,即 64 个点。现在每个点都可以在区间中有一个值,所以它可以有 16 个值。所以输入空间的大小为.
特征空间
定义了特征所在的多维空间。考虑到上面的例子,我们可以有三个样本,
这些向量可以包含在 n 维空间中(对于我们的例子,这里 n=2)。因此,在我们的例子中,我们可以绘制特征的 2D 空间构成了我们的“特征空间”。
对于 MNIST 数据集,输入向量有 64 个元素,对应于 64 维空间(特征空间)。
看到这个答案。
输入空间和特征空间之间的差异。
输入空间包括我们模型的所有可能输入。另一方面,特征空间包括来自给定数据集的特征向量。它们可能不包含模型的所有可能输入。
假设空间
包含模型产生的所有功能的空间。这些函数将输入映射到它们各自的输出。模型可以根据其学习输出各种功能(或者更确切地说是输入和输出之间的关系)。如果你有一个更大的假设空间,模型就找不到“最好的”一个。看到这个答案。
对于 MNIST 数据集,正如我们之前计算的,输入空间的大小为. 它们中的每一个都可以有 10 个标签(类)中的任何一个。因此,假设空间的大小为
参数空间
对于 ML 中的每个模型,我们都有一些模型参数。我们可以定义这些参数(或超参数)的空间就是我们的“参数空间”。从维基百科的例子,我们可以理解,
每个模型的参数空间都会有所不同。
在正弦波模型中,参数为幅值 A > 0,角频率 ω > 0,相位 φ ∈ S1。因此参数空间是.