我搜索了许多网站,以了解 Lift 究竟会做什么?我发现的所有结果都是关于在应用程序中使用它而不是它本身。
我知道支持和信心功能。来自维基百科,在数据挖掘中,提升是衡量模型在预测或分类案例方面的性能,针对随机选择模型进行衡量。但是怎么做?信心*支持是提升的价值我也搜索了另一个公式,但我不明白为什么提升图表对预测值的准确性很重要我的意思是我想知道提升背后的政策和原因是什么?
我搜索了许多网站,以了解 Lift 究竟会做什么?我发现的所有结果都是关于在应用程序中使用它而不是它本身。
我知道支持和信心功能。来自维基百科,在数据挖掘中,提升是衡量模型在预测或分类案例方面的性能,针对随机选择模型进行衡量。但是怎么做?信心*支持是提升的价值我也搜索了另一个公式,但我不明白为什么提升图表对预测值的准确性很重要我的意思是我想知道提升背后的政策和原因是什么?
我将举一个“提升”如何有用的例子......
想象一下,您正在开展一项直邮活动,向客户邮寄报价,希望他们做出回应。历史数据显示,当您完全随机地向您的客户群发送邮件时,大约有 8% 的客户会回复邮件(即,他们会带着报价进来购物)。因此,如果您向 1,000 名客户发送邮件,您预计会有 80 名回复者。
现在,您决定将逻辑回归模型拟合到您的历史数据中,以找到能够预测客户是否可能回复邮件的模式。使用逻辑回归模型,每个客户都被分配了响应的概率,您可以评估准确性,因为您知道他们是否实际响应。一旦为每个客户分配了他们的概率,您就可以将他们从得分最高到最低的客户排序。然后你可以生成一些像这样的“提升”图形:
暂时忽略顶部图表。下面的图表是说,我们根据客户的响应概率(从高到低)对客户进行排序,然后将它们分成十个相等的 bin,在 bin #1(前 10% 的客户)中的响应率为 29 % 与 8% 的随机客户,提升 29/8 = 3.63。当我们在第 4 个垃圾箱中为客户评分时,我们已经捕获了前三个垃圾箱中的很多客户,以至于响应率低于我们预期的随机邮寄人。
现在看看上面的图表,这说明如果我们使用客户的概率分数,我们可以通过仅邮寄得分最高的 30% 的客户来随机获得 60% 的响应者。也就是说,使用该模型,我们只需邮寄得分最高的 30% 的客户,就可以以 30% 的邮件成本获得 60% 的预期利润,这就是lift的真正含义。
提升图表示模型的响应与该模型的缺失之间的比率。通常,它由 X 轴中的案例百分比和 Y 轴中响应更好的次数表示。例如,在点 10% 处具有提升 = 2 的模型意味着:
如果没有任何模型占人口的 10%(没有订单,因为没有模型),y=1 的比例将是 y=1 的总人口的 10%。
使用该模型,我们得到这个比例的 2 倍,即我们期望得到 y=1 的总人口的 20%。在 char 标签中,X 表示按预测排序的数据。前 10% 是前 10% 的预测
提升只是信心与预期信心的比率。在关联规则领域——“提升比大于 1.0 意味着前件和后件之间的关系比两组独立时预期的更为显着。提升比越大,关联越显着。 " 例如-
如果超市数据库有 100,000 笔销售点交易,其中 2,000 笔包括商品 A 和 B,其中 800 笔包括商品 C,则关联规则“如果购买 A 和 B,则购买同一商品 C trip" 支持 800 笔交易(或者 0.8% = 800/100,000),置信度为 40% (=800/2,000)。一种考虑支持度的方法是,它是从数据库中随机选择的事务将包含前件和后件中所有项目的概率,而置信度是随机选择的事务将包含所有项目的条件概率因此,假设交易包括前件中的所有项目。
使用上面的例子,在这种情况下,预期的信心意味着“信心,如果购买 A 和 B 不会提高购买 C 的概率”。它是包含结果的事务数除以事务总数。假设 C 的事务总数为 5,000。因此,预期置信度为 5,000/1,00,000=5%。对于超市示例,Lift = Confidence/Expected Confidence = 40%/5% = 8。因此,Lift 是一个值,它为我们提供了关于给定 if(先行词)部分的 then(consequent)概率增加的信息。 这是源文章的链接
提升只是衡量规则重要性的衡量标准
它是一种随机检查此规则是否在列表中或我们期望的措施
提升 = 信心 / 预期信心