有时它有助于描绘这种分析的目标以及公司在没有它的情况下可以做什么。假设营业额数据所属的公司想要针对(可能)高流动率采取措施。我可以想象两种可能的行动
- 找出是什么驱使人们离开并解决这个问题(没有足够的医疗保健?没有团队精神?)
- 找到正在考虑离开的员工并与他们交谈,找出是什么促使他们专门为他们解决问题。
那么这有什么关系呢?
提升图对于第二个用例非常重要。想象一下,当一家公司决定投资时与员工一对一交谈但没有模型时,他们会做什么?唯一的选择是与每个人交谈,或者在固定大小的随机样本中与每个人交谈。与所有人交谈,尽管可以识别所有潜在的离职人员,但成本太高了。但是,当只选择一个随机样本与之交谈时,只有一小部分潜在离职者被识别出来,同时仍然花费大量资金。在这两种情况下,每次休假预防成本比率都很高。
但是当存在一个好的模型时,公司可以决定只与那些最有可能离开的人(根据模型得分最高的人)交谈,从而识别出更多的潜在离职者,从而优化每人成本-请假预防。
再看看这里的前两个表:http ://www2.cs.uregina.ca/~dbd/cs831/notes/lift_chart/lift_chart.html 。假设“客户”=“员工”和“积极的受访者”=“潜在离职者”(请参阅下面的数据)。
如果公司决定只能花足够的钱与 10000 名员工交谈,它将确定
- 20000100000∗10000=2000没有模型的离开者被识别
- 600010000∗10000=6000离去者被模型识别(根据模型分数只选择前 10000 个)
意思是
- 因子的改进,如提升图中的点 (10%,3) 所示。60002000=3
- 20000 总离职者中有 6000 人已确定,即 30%,在增益图中如图所示为 (10%,30%) 。这里的基线只有 10%,因为通过对 10000 名员工进行随机抽样,只有的所有潜在离职人员被识别.10000∗(20000/100000)20000=10000100000=0.1
两种情况下的 x 轴都显示了已联系员工的百分比,在此具体示例中为 10%。
附录
用于使这个问题独立于链接腐烂的数据。
总价
与已确定离职人员联系的员工总数
100000 20000
以 10000 人为单位联系员工时模型的有效性
与已确定离职人员联系的员工总数
10000 6000
20000 10000
30000 13000
40000 15800
50000 17000
60000 18000
70000 18800
80000 19400
90000 19800
100000 20000