寻找实时优化内容的完美算法

数据挖掘 机器学习 算法
2022-03-09 08:59:35

我正在寻找一种允许我执行以下操作的算法:

我有一个网页,我想根据谁(访问者)看到该网页,从该网页的内容列表中随机显示一个“内容”。我知道访问者的人口统计特征,例如年龄、性别、地区。我假设具有相似人口统计数据的访问者对我网站上的内容有相似的品味。我也知道他们最终分享我的内容时喜欢我的内容。

是)我有的:

  • 可用内容的列表,比如说:红色、绿色、蓝色、紫色、紫罗兰色
  • 具有共享内容的特定人口统计数据的访问者的持续事件流

我想要的是:

  • 首先,所有内容应完全随机显示。每个用户应该随机获得一个内容,没有任何偏好
  • 一旦具有特定人口统计特征的第一个用户分享了他们获得的内容,我希望其他具有相似人口统计特征的访问者最终在我的网页上以更高的概率看到此特定内容。

所以基本上我想要一个实时学习的自我优化系统。

1个回答

这听起来像是上下文强盗求解器的经典用途。

本质上,您可以运行一个简单的在线模型(几乎任何回归模型,如果您的奖励信号是二进制成功/失败,例如您的情况,甚至可以运行一个简单的分类器,如逻辑回归),学习将您的人口统计数据与预期奖励相关联每个可能的操作 - 对您而言,奖励可以简单地为 1(创建共享链接)或 0(未创建共享链接)。

在模型学习的同时,您根据模型的预测奖励选择下一个动作。在不同的可行策略之间存在选择。例如,您可以使用ϵ-贪婪方法:选择具有最大预测期望奖励的动作(或在共享最大值之间随机选择),但有时 - 有概率ϵ- 您选择随机内容。通过研究上下文老虎机和更简单的多臂老虎机问题,您可以发现其他方法和选项。

例如,您可以使用逻辑回归模型来预测来自用户人口统计数据的预期回报,每个可能的操作使用一个这样的模型。对于开始时选择均匀但更喜欢随时间共享更多项目的版本,您可以使用玻尔兹曼分布(也称为吉布斯分布)使用预测的奖励作为动作的反向“能量”,并在收集更多数据时降低温度。您还可以初始化模型的权重,以预测一个小的但乐观的积极奖励,以鼓励早期探索。每当用户查看您的页面时,您会根据预测的奖励选择要采取的操作,然后将用户响应(分享或不分享)作为反馈来更新与该操作关联的一个模型。

在上面的示例中,逻辑回归学习率、温度方案和起始奖励是模型的超参数,您可以使用它们来权衡对单个事件的响应性与选择最佳动作的长期准确性。