高斯过程分类所需的样本量

机器算法验证 样本量 高斯过程
2022-03-24 00:22:42

我最近阅读了 Loeppky 等人的论文。关于选择计算机实验的样本量:实用指南,很想知道是否有关于高斯过程 (GP) 分类的样本量考虑的经验法则?该论文建议的值,其中是输入空间的维度,但是,此结果适用于 GP 回归,而不是 GP 分类情况。我想分类可能需要更多的分数,因为它似乎是一个更难的问题,但不确定是否有任何关于该主题的文章发表。如果重要的话,在我的应用程序中,输入空间的维度永远不会大于 1。n=10×dd

2个回答

分类可能需要比回归更多的点,原因如下:

1) 如果只有 2 个类,则响应变量包含的信息比连续变量少得多,连续变量可以取很多值。

2)点数少的情况下,特别容易得到完全分离,这使得最大似然估计不确定。

大约 10 个点,即使您的预测变量是一维的,也很难判断发生了什么。该图是通过 10 次独立的硬币翻转随机生成的。尽管人们可以很容易地想象添加一条上下摆动的曲线以更好地拟合点,但这样做是错误的。出于这个原因,在你有几十个点之前就开始考虑非线性分类器可能没有意义。此图是随机生成的

至少,您希望严格限制 GP 模型以防止其过度拟合,和/或拥有基于第一原理的预先确定的内核。有了这么少的点,模型拟合过程可能会崩溃(如果您的约束太弱)或产生与您的初始假设相匹配的东西(如果您的约束太强)。

这个经验法则是错误的。GP 用于 d >> n 的高维设置,没有任何问题(基因组学,mri)假设一张图像中有 500 000 个体素,用于将 100 个受试者分为 2 个类别。我不知道是否有任何理论界限,实际数字很大程度上取决于手头数据的性质,因此信号有多强以及特征的比例是纯噪声。