有人可以向我解释一下特定场景的含义吗?

机器算法验证 机器学习 正态分布 计量经济学
2022-03-14 07:23:22

分类ORANGE中的点集合对应{ x:x^Tβ>0.5 },如图2.1所示,两个预测类被决策边界隔开{ x:x^Tβ= 0.5 },在这种情况下是线性的。我们看到,对于这些数据,在决策边界的两侧都有几个错误分类。也许我们的线性模型太僵化了——或者这些错误是不可避免的吗?记住这些是训练中的错误数据本身,我们还没有说构造的数据来自哪里。考虑两种可能的场景:R2x:xTβ>0.5x:xTβ=0.5

场景 1:每个类中的训练数据是从具有不相关分量和不同均值的二元高斯分布生成的。

场景 2:每个类中的训练数据来自 10 个低方差高斯分布的混合,其中个体均值本身分布为高斯分布。

高斯混合最好用生成模型来描述。首先生成一个离散变量,该变量确定要使用哪个高斯分量,然后根据所选密度生成一个观测值。在每类一个高斯的情况下,我们将在第 4 章看到线性决策边界是最好的,并且我们的估计几乎是最优的。重叠区域是不可避免的,未来要预测的数据也将受到这种重叠的困扰。在紧密聚集的高斯混合的情况下,情况就不同了。线性决策边界不太可能是最优的,事实上也不是。最佳决策边界是非线性且不相交的,因此将更难获得。”

有人可以向我解释一下特定场景的含义吗?来自Tibshirani 的《统计学习要素》

3个回答

在场景 1 中,有两个双变量正态分布。在这里,我展示了两个这样的概率密度函数 (PDF),它们叠加在一个伪 3D 图中。一个在附近有一个平均值(在左侧),另一个在附近有一个平均值。(0,0)(3,3)

图 1:普通 PDF

样本是从每个样本中独立抽取的。我采用了相同的数字(),这样我们在评估这些数据时就不必补偿不同的样本量。300

图 2:正常样本及其最佳判别器

点符号区分两个样本。灰色/白色背景是最好的鉴别器:灰色点比第一个分布更可能来自第二个分布。(鉴别器是椭圆的,不是线性的,因为这些分布的协方差矩阵略有不同。)

在场景 2中,我们将查看使用混合分布生成的两个可比较数据集。 有两种混合物。每一个都由十个不同的正态分布决定。它们都有不同的协方差矩阵(我没有显示)和不同的方法。以下是他们手段的位置(我称之为“核心”):

图 3:组件方式

高斯混合最好用生成模型来描述。首先生成一个离散变量,该变量确定要使用哪个高斯分量,然后根据所选密度生成一个观测值。

要从混合物中提取一组独立的观察值,您首先随机选择其中一个成分,然后从该成分中提取一个值。混合物的 PDF 是成分的 PDF 的加权和,权重是在第一阶段选择每个成分的机会。这是两种混合物的 PDF。我用一点额外的透明度画了它们,这样你就可以在它们重叠的中间更好地看到它们:

图 4:混合 PDF

为了使这两个场景更易于比较,我们选择这两个 PDF 的均值和协方差矩阵来密切匹配场景 1 中使用的两个二元正态 PDF 的相应均值和协方差。

为了模拟场景 2(混合分布),我从两个数据集中抽取了 300 个独立值的样本,方法是以的概率选择它们的每个组件,然后从所选组件中独立抽取一个值。因为组件的选择是随机的,所以每个组件的抽取次数并不总是正好,但通常接近。结果如下:1/1030=300×1/10

图 5:两个混合物样本

黑点显示了两个分布中每一个的十个分量均值。每个黑点周围聚集了大约 30 个样本。但是,由于数值混杂很多,因此无法从该图中确定哪些样本是从哪个组件中抽取的。

在紧密聚集的高斯混合的情况下,情况就不同了。线性决策边界不太可能是最优的,事实上也不是。最佳决策边界是非线性且不相交的,因此将更难获得。”

最后一张图中的背景是这两种混合分布的最佳鉴别器。它很复杂,因为分布很复杂;显然它不仅仅是一条直线或平滑曲线,如场景 1 中出现的那样。

我相信这种比较的全部意义在于我们作为分析师的选择,即选择我们想要使用哪种模型来分析这两个数据集中的任何一个。因为我们实际上不知道哪种模型是合适的,所以我们可以尝试对场景 1 中的数据使用混合模型,我们同样可以尝试对场景 2 中的数据使用 Normal 模型。我们可能会在任何情况下都相当成功由于相对较低的重叠(蓝色和红色样本点之间)。然而,不同的(同样有效的)模型可以产生明显不同的鉴别器(尤其是在数据稀疏的区域)。

本书第 2.3 节(这句话的出处)中提出的观点是,如果数据源来自场景 1,那么没有比线性除法更好的方法(如图 2.1 所示)。任何更精细的调整实际上都是自欺欺人:如果您不使用最佳线性除法,那么您应该期望得到更差的结果来预测训练数据之外的情况。

源分布中每一个的低方差使得相同颜色的数据点更有可能以非线性方式聚集在一起,因此非线性方法可能更熟练。书中给出的例子是查看最近邻的颜色:图 2.2 显示了如果你查看 15 个最近邻(一个相当平滑的非线性边界)的分类边界,而图 2.3 显示的是如果你查看的边界只有 1 个最近的邻居(非常参差不齐的边界)。10

我怀疑所提出的观点是统计或机器学习技术的价值取决于数据的来源,并且某些技术在某些情况下更好,而另一些则在其他情况下更好。但是也可以从不同的方法中概括想法并提出进一步的技术,如第 2.4 节和图 2.5 中的书所说的“贝叶斯分类器”。

whuber发表了非常好的声明。在这里,我只想添加更多细节。

  1. 场景 1 讨论的是线性判别分析 (LDA),其中决策边界是线性的,而whuber正在描述更一般的二次判别分析 (QDA),其中决策边界是二次函数。当然,LDA 是 QDA 的一个特例。

  2. 线性决策边界对于场景 1 是最优的,因为使用最大似然估计解决分类问题会给出线性解决方案。

  3. 同时,尽管 LDA 看起来与线性回归非常不同,但这两种方法给出的决策边界非常相似。直观地说,如果我们认为这两个决策边界是两条直线,那么这两条线的斜率相同但截距不同。

有关更多数学细节,我会推荐这个博客,它给出了一个很好的详细解释。