远程监督:监督、半监督还是两者兼而有之?

机器算法验证 机器学习 参考 数据挖掘 无监督学习 半监督学习
2022-01-16 04:12:38

“远程监督”是一种学习方案,其中在给定弱标记训练集的情况下学习分类器(训练数据根据启发式/规则自动标记)。我认为,如果它们的标记数据是启发式/自动标记的,那么监督学习和半监督学习都可以包括这种“远程监督”。但是,在本页中,“远程监督”被定义为“半监督学习”(即仅限于“半监督”)。

所以我的问题是,“远程监管”是指半监管吗?在我看来,它可以应用于监督学习和半监督学习。如果有,请提供任何可靠的参考资料。

1个回答

远程监督算法通常具有以下步骤:
1] 它可能有一些标记的训练数据
2] 它“有权”访问未标记的数据池
3] 它有一个操作员,允许它从这些未标记的数据中采样并标记它们并且该算子在其标签中预计会产生噪音
4] 该算法然后集体利用原始标记的训练数据(如果有的话)和这个新的嘈杂标记的数据来给出最终输出。

现在,要回答您的问题,您和网站都是正确的。您正在查看算法的第 4 步,并注意到在第 4 步可以使用用户可以访问的任何算法。因此,您的观点是,“它可以应用于监督学习和半监督学习”

而该站点正在共同查看所有步骤 1-4 并注意到嘈杂标记的数据是从未标记数据池中获得的(使用或不使用一些预先存在的标记训练数据)以及获取嘈杂标签的过程是任何远程监督算法的重要组成部分,因此它一种半监督算法。