关于组合 SVM

机器算法验证 可能性 分类 支持向量机 集成学习
2022-03-20 06:35:03

假设我们有一个监督训练集T={(x1,y1),,(xn,yn)}在哪里xi是一个例子,并且yi{1,+1}是它的标签。进一步假设示例只能通过特征提取函数观察到f(x;s)在哪里x是一个例子,并且s{s1,,sm}是特征提取的论据。对于每个可能的值s,我们训练一个线性支持向量机(在集合上{(f(x1;s),y1),,(f(xn;s),yn)})。wi学习 SVM 的权重s=si.

我的问题是组合这些 SVM 的子集以改进分类。具体来说,对于一个测试示例x,假设我们只有前两个 SVM 的分数(特征提取成本很高):w1Tf(x;s1)w2Tf(x;s2). 我们如何(最佳地)结合这些分数来获得最终决定?一个简单的答案是为每个子集训练一个 SVMs值,但这并不容易处理。

理想情况下,我对概率解释感兴趣。假设每个 SVM 模型P(y|f(x;si)), 我想表达P(y|f(x;s1),f(x;s2))使用P(y|f(x;s1))P(y|f(x;s2)).

2个回答

您可能会发现以下文章很有帮助。概述了各种技术来获得Milgram中 SVM 输出的概率估计。

在组合概率估计时,可以使用加权或未加权的概率和、朴素贝叶斯或各种其他技术。有关融合分类器输出的综合研究,请参见第 5 章。基特勒理论上认为,求和规则(将各种分类器的概率相加并选择概率最高的类)是最优的。

我不知道只有两个支持向量机可以期望什么样的准确性改进。集成背后的论点是,如果集成中的分类器数量接近无穷大,则正确集体决策的概率接近 1。仅使用两个分类器,要么同意该决定,要么不同意该决定。我认为合奏不会比最好的单一分类器更好吗?

尝试
A] 多数投票
B] 加权投票(考虑到超平面的距离作为每个超平面在其分类中的权重或置信度)
C] AdaBoost [1] 算法。

[1] http://en.wikipedia.org/wiki/AdaBoost