在离散值输入向量和二进制标签的情况下如何枚举假设搜索空间?

数据挖掘 机器学习
2022-02-21 12:15:43

以下示例中作者使用的一些定义:

X - 它是一组训练示例,其中每个示例是具有 6 个特征/属性(天空、空气温度、湿度、风、水和预报)的特征向量

H - 估计目标函数 f:X->y 的所有可能假设的集合。

EnjoySport是输出标签,是或否。

例如,考虑 EnjoySport 学习任务中的实例 X 和假设 H。假设属性 Sky 具有三个可能的值,并且 AirTemp、Humidity、Wind、Water 和 Forecast 各有两个可能的值,实例空间 X 正好包含 3.2.2.2.2.2 = 96 个不同的实例。类似的计算表明在 H 中有 5.4.4.4.4.4 = 5120 个语法上不同的假设。但是请注意,每个假设都包含一个或多个“ϕ" 符号表示实例的空集;也就是说,它将每个实例都分类为否定的。因此,语义上不同的假设的数量只有 1 + (4.3.3.3.3.3) = 973。

这段摘自 Tom M. Mitchell 的机器学习。Ch-2, pg-23,24 我无法理解为什么 5 而不是 6,而且我也无法遵循语义上不同的假设。

0个回答
没有发现任何回复~