如前所述,您没有描述个人的数据(例如年龄、性别、鞋码),但正在寻找整个人群的最佳组合值。因此,如果您选择随机人从总体中对其进行评分,那么您想要的是与最大预期评分的混合。原则上,这个预期评级是一个采用两个参数的函数,例如F(n一个p l e _,n或者_ _ _ _e)- 第三种果汁的量不是自由选择的,所以你只有两个维度。
您可以将问题分解为两个不同的部分:
对于一个简单的方法,您可以忽略第二个要点,并在整个事件中随机抽样不同的混合。然后在评级上训练回归 ML(任何算法都可以,虽然你可能想要非线性的东西,否则你只会预测其中一种纯果汁作为最爱) - 最后绘制它的预测并在最后找到最大评级. 作为一个有趣的实验,这可能会很好。
但是,当您想在探索选项的同时优化动作的预期值时,有一种更复杂的方法经过充分研究并用于做出决策 - 它通常称为多臂老虎机. 在您的情况下,您需要考虑“手臂空间”或参数选择的变体,而不是代表动作之间选择的有限数量的选择。这对您很重要,因为将您的混音参数分成例如 5% 的步骤,给定您需要制作的样本数量,您将有太多的选择可供探索。相反,您需要假设预期评级函数相对平滑 - 35% Apple、10% Orange、55% Grape 的预期评级与 37% Apple、9% Orange、54% Grape 的评级相关. . . 这在我看来至少是合理的,但是您应该在任何文章中明确说明这是一个假设和/或找到支持它的已发布内容。如果你做出这个假设,那么你可以使用函数逼近器,例如神经网络,
简而言之,对于多臂老虎机问题,您将使用随着实验进展收集的数据来估计每个选择的期望值,并且在每一步中都会做出新的混合选择。选择本身将由您当前的最佳近似值指导。但是,您并不总是对当前的最高评价值进行采样,您需要探索其他组合以优化您的估计函数。您在这里也有选择 - 您可以使用ε-greedy,例如 10% 的时间您完全随机选择以获取其他样本点。但是,您可能需要更复杂的东西来探索更多并且仍然快速收敛,例如Gibbs sampling。
你没有说的一件事是你在什么水平上推销这个实验。如果这是为了学校科学博览会,自己参考博客、教程和论文来研究多臂老虎机问题可能有点太多了。如果这一切看起来有点太模糊并且需要研究大量工作,那么您可能会坚持使用随机实验数据的简单回归模型。
我建议您采用哪种方法,对输入数据进行一些模拟,看看您的方法是否有效。显然这里有很多猜测工作。但原理是:
创建一个“真正的”模型函数——例如选择一个想象中最喜欢的组合并让它得分更高。使它成为一个简单且可能非常微妙的函数-例如,获得最佳结果的得分为 5,并从中减去“果汁空间”中的欧几里得距离乘以一个小因数(可能是 1.5)。
创建一个嘈杂的采样器,模仿实验中的某个人对特定组合进行评分。确保由此得出的平均值与“真”函数相匹配。
尝试你的采样和学习策略,看看他们找到最喜欢的组合的效果如何。
我强烈建议在将您的系统投入实际使用之前进行这种试运行,否则您将无法确信您的 ML/逼近器正在工作。
关于您的估算器的另一条建议:您期望数据中有大量差异,并且不会有很多样本。因此,为了避免过度拟合,您将需要一个相对简单的 ML 模型。例如,对于神经网络,您可能只需要一个隐藏层,其中的神经元很少(例如 4 或 5 个可能就足够了)。找到一个足够复杂的模型来预测曲线,但又足够简单以至于在给定非常嘈杂的目标输出时它不会过度拟合可能需要几次尝试——这就是我建议使用模拟数据进行试运行的主要原因。