问题:可以在不访问单一分类结果的情况下通过强化学习训练分类器吗?
我想使用强化学习训练分类器。但是,有一个很大的限制:程序无法定期访问分数,即使在每次分类后也无法访问。只有在完成许多分类后(例如,大约 40-200 个分类,我们称它们为一个批次),才能获得该批次的最终分数。一批可以相当快地执行:只需要大约一秒钟。因此,可以执行数千个批次,每个批次都返回其分类的分数。每次执行批处理时,都会将当前的 ML 模型作为输入供批处理使用。
当然,除此之外,特征向量是已知的(包含大约 60 个特征)并且标签是已知的(大约 6 个标签)。
我以前从未应用过强化学习,因此,我不知道这是否可行。从理论上讲,我认为应该:所有数据都可用。算法可以为模型选择一些参数值,试一试,得到一个分数。然后尝试不同的值并再次获得分数。这样应该可以逐步提高。
附加说明:虽然上面的文字应该足以理解问题并提供答案(可以是一般性的,而不是特定于具体用例),但我个人的用例和有关它的详细信息在此处进行了解释。这可能有助于更详细地理解问题。
编辑:之前,我使用“随机森林”作为可能使用的 ML 模型的示例。由于随机森林似乎需要与强化学习相反的监督学习,因此我已将其从文本中删除(不包括一些特殊用例,例如这个)。