机器算法验证 - 推荐系统的条件 Logit？ - 吾爱随笔录

推荐系统的条件 Logit？

机器算法验证计量经济学罗吉特推荐系统

2022-03-24 19:19:55

条件多项式 logits 是否用于推荐引擎？尽管它们通常用于计量经济学，但我从未听说过在推荐系统的上下文中使用或讨论过它。

经济学家使用多项条件逻辑来模拟一个人会选择几个选项中的哪一个，以及他们对所选择项目的每个特征的重视程度。这通常被称为特征模型。

经典的多项式 logit 处理离散项目（预测通勤者是否会“步行”、“乘坐公共汽车”或“乘坐地铁”。

条件多项式 logit 使用任何观察到的选择集的数据，并且不要求每个人在同一组事物中进行选择。它还为各种特征/变量赋予了价值。例如，您可能会看到人们决定购买几所房子中的哪一栋。每所房子都是不同的——平方英尺、房间数量、价格等。根据观察到的选择，模型估计各种特征的重要性，您可以得出每个人对每所房子的预测“效用”分数。然后模型预测选择得分最高的房子。

这是一个描述： http ://data.princeton.edu/wws509/notes/c6s3.html

1个回答

前言

我每天都在使用推荐系统，也从未听说过像推荐系统这样的模型的应用。我只能推测原因。

主要的总体原因可能是推荐系统经常应用在一个项目的价格/成本太小而无法迫使客户投入时间做出近乎最优的决策以最大化他的效用的领域。在下一节中应牢记这一点。此类域包括电子商务或新闻门户网站（推荐文章的地方）或像 tastekid.com 这样的网站，在此步骤中的决定只需点击一下，即几乎没有任何费用。

推理

所描述的条件多项式模型需要（或效果最好）...

客户的特征
物品的特征
做出决定时假设的合理性

让我们逐步了解每一点

客户特征

除了一些基本的人口统计信息，如性别、地址和（可能是）年龄之外，人们知之甚少。一件商品的价格越低（见上文），在选择过程开始之前要求进行调查的难度就越大。另一方面，活动数据（购买的商品、评分等）无需客户进行任何工作即可收集，并可用于描述客户，遵循“你是你感兴趣的”的座右铭。客户感兴趣的项目（偏好）隐含地捕获了对客户重要的内容。

物品的特征

已经通过“基于内容的协同过滤”或基于模型的方法来构建基于项目特征的模型。例如，这些用于解决冷启动问题，即新的推荐系统还没有（足够的）偏好。

然而，这里的缺点是很难自动收集项目的属性。想象一下时尚的例子：有些很简单（颜色、品牌），有些非常难（布料在皮肤上的感觉如何，如果我的臀部比平均水平宽，看起来会怎样）。有时这是完全不可能的，因为这完全取决于产品的接收情况，例如电影。对于某些项目，此类信息可以由人类收集，也可以由理解语义和语言的非常复杂的系统收集。尚不清楚由此产生的改进是否会超过成本。

因此，与其说：“由于属性 p1、p2、...，物品 A 与物品 B 相似”，不如说“很多人同时购买了物品 A 和物品 B。我不知道为什么，但对于推荐系统而言，它们足够相似”。因此，偏好隐含地捕捉到与项目的相似程度。

做出决定时假定的合理性

我们是人类，我们一直假装是理性的。如果例如价格或其他情况迫使我们认真考虑一个决定，则可能是一个决定的理性部分高于平均水平。但是，当谈到利用广告向人们推销东西时（是的，推荐可以被视为广告），营销会告诉我们理性所起的作用较小。

此外，人们通常事先不知道哪些属性对他们来说最重要，以便最大化他们的个人效用函数。如果是这种情况，所有购买过程都可以通过使用搜索引擎来描述，其中 a) 列出所有相关属性 b) 客户选择与他相关的所有属性并命名感兴趣的产品，然后搜索引擎提供完全正确的结果。

相反，人们有一个基本目标（例如，买一套西装），然后四处浏览以了解产品如何吸引他们和/或获得灵感。做出购买决定仍然是部分理性的（预算、投入时间），但通常归结为“感觉正确”。当然，每个领域都有自己的理性和感性分布。技术越多，事实就越能发挥重要作用。但是，即使客户可能会因为广告的帷幕而选择品牌，而他事先不会将其命名为主要标准。

因此，在这里建立一个经济模型可能仍然有效，而且肯定是正确的，但可能完全超出了顶峰。此外，可能必须为商店销售的每种类型的商品建立一个单独的模型。

概括

完全基于偏好构建推荐系统通常是因为......

这很简单（=> 便宜）
它可以自动完成，不需要客户额外的工作（=>便宜）
它有效（足够好），因此更复杂的模型可能不会超过额外成本。

但是：在某些领域，这样的经济模型会更好。我不怀疑，一个好的房地产经纪人以及一个基于经济模型的好的专家系统将很容易胜过基于偏好的推荐系统。我经常观察到，人类专家提出的建议通常比自动提出的建议要好。但是，自动装置仍然很好，可以批量生产而无需太多成本，因此专家可以专注于更复杂的任务。

其它你可能感兴趣的问题

上一篇为自相关数据构建均值的置信区间下一篇仅处理预测集中的缺失数据