假设我正在尝试提高我网站上视频的点击率。我一直在阅读有关上下文强盗的文献,并偶然发现了 Microsoft MWT白皮书。我相信这是本案的正确方法。但是,我对政策探索和政策培训的细节有些困惑(第 3.2 和 3.3 节)。
我的第一个问题:政策和勘探政策之间有区别吗?我想说不,但想要确认。
我的第二个问题与学习政策有关。例如,假设我最初使用-贪婪的探索策略和收集的用户点击日志数据。该论文指出(离线)我想从所有允许的策略中找到一个近似最大化估计的预期奖励的策略(逆倾向得分估计器) 政策-- 等式。第 3.3 节中的 4。策略选择一个动作(例如,提供给用户的视频)给定上下文(例如,用户属性以及可能当前正在观看的文章/视频的属性)和结果(点击或不点击)被观察到。作者建议将策略训练简化为对成本敏感的分类问题(例如逻辑回归、决策树或神经网络),其中每个策略被视为分类器(即用于上下文, 给定的策略选择行动)。
但是,我不清楚分类任务是什么。这是否意味着我可以使用神经网络之类的东西,其输出是最小化成本的策略?这是否已经在VW等 ML 包中执行?如果是这样,怎么做?