谁能用一个具体的例子来解释这些术语,“输入空间”、“特征空间”、“样本空间”、“假设空间”、“参数空间”?

数据挖掘 机器学习 术语
2021-10-15 03:15:07

人们在机器学习中使用“输入空间”、“特征空间”、“样本空间”、“假设空间”、“参数空间”这些术语。

谁能用一个具体的例子来解释这些术语,比如sklearn MNIST 数据集?,它有 1797 个样本、10 个类、8*8 维度和 17 个特征。

请不要泛泛而谈。

例如,在这种特殊情况下,特征空间是 17 个元素 {0, 1, ..., 16} 的集合吗?

1个回答

我们将讨论每个术语。

输入空间

它包含模型的所有可能输入。假设模型接受一个向量,一世np=[X1,X2], 在哪里X1,X2[1,10],那么我们可以有102输入。这构成了“输入空间”。这里

对于 MNIST 数据集,图像的尺寸为 8 * 8,即 64 个点。现在每个点都可以在区间中有一个值[0,16],所以它可以有 16 个值。所以输入空间的大小为1664.

特征空间

定义了特征所在的多维空间。考虑到上面的例子,我们可以有三个样本,

一个1=[2,3]一个2=[7,4.5]一个3=[3.67,2]

这些向量可以包含在 n 维空间中(对于我们的例子,这里 n=2)。因此,在我们的例子中,我们可以绘制特征的 2D 空间构成了我们的“特征空间”。

对于 MNIST 数据集,输入向量有 64 个元素,对应于 64 维空间(特征空间)。

看到这个答案。

输入空间和特征空间之间的差异。

输入空间包括我们模型的所有可能输入。另一方面,特征空间包括来自给定数据集的特征向量。它们可能不包含模型的所有可能输入。

假设空间

包含模型产生的所有功能的空间。这些函数将输入映射到它们各自的输出。模型可以根据其学习输出各种功能(或者更确切地说是输入和输出之间的关系)。如果你有一个更大的假设空间,模型就找不到“最好的”一个。看到这个答案

对于 MNIST 数据集,正如我们之前计算的,输入空间的大小为1664. 它们中的每一个都可以有 10 个标签(类)中的任何一个。因此,假设空间的大小为101664.

参数空间

对于 ML 中的每个模型,我们都有一些模型参数。我们可以定义这些参数(或超参数)的空间就是我们的“参数空间”。维基百科的例子,我们可以理解,

每个模型的参数空间都会有所不同。

在正弦波模型中是的()=一个(ω+φ>),是的()=一个(ω+φ),参数为幅值 A > 0,角频率 ω > 0,相位 φ ∈ S1。因此参数空间是R+×R+×小号1.