探索与剥削的权衡,以找到使收入最大化的价格

数据挖掘 机器学习 回归 采样
2021-09-25 10:15:57

有没有一种实用的策略可以学习以最优的价格为产品定价?现在我有以下任意爬山算法:

  • 以起始价格运行实验P并收集 500 个数据点(例如 20 个购买和 480 个不购买)。
  • 对什么置信水平P产生比P * 1.1和更高的每位访客收入进行 t 检验P * 0.9然后进行 3 次加权硬币翻转,获胜者可以进行下一个实验。

这种方法有很多问题。例如,如果价格处于最优状态,则无法以更最优的定价 ex 对产品进行定价P * 1.03另一个是,如果在某个价格点上P = K我们碰巧运气不好,买了 1 次 500 个数据点,算法就不会快速收敛。

如果我们获取大量数据点,问题就会变得容易,但这会减少长期收入。是否有一种快速算法可以收敛到最优价格,然后不再进行探索?

1个回答

如果不做任何潜在的假设,您将一事无成。也就是说,有试图优化奖励的多臂老虎机策略,在这个领域有大量的研究。它归结为从您的选项分布(在您的情况二)中抽样,并根据奖励调整此分布。

https://en.wikipedia.org/wiki/Multi-armed_bandit

一旦您知道每个老虎机的奖励分布来自特定分布,您就可以推断出最佳采样策略。一旦你至少有一些先验信息,你就可以做得相当好,尽管并不总是最佳的。无论如何,如果策略不是超级贪婪,大多数策略都会比正常的 A/B 测试做得更好。