我的任务是报告在 h2o 中创建的集成模型,其中包括几种模型子类型,例如随机森林、GBM、线性模型等。最终目标是预测大型电信公司产品的流失率,但方法我们使用可以适用于任何类似的问题。
以这种方式生成的模型包含一些潜在有用的性能度量,例如变量重要性、精度、召回率和其他一些。每个模型大约有 150 个输入变量。
模型分数已用于按十分位数对客户进行分组,并衡量每组的流失率。
目前的情况是分数似乎太好了,这表明我们可能存在数据泄漏问题。例如,对于其中一个模型,第 1 个十分位数捕获了 84% 的流失率,而第 4 个十分位数捕获了 99% 的流失率。
我的任务是了解和报告模型性能的潜在问题,以便我们改进模型并向业务部门推荐行动。我想知道的是:
- 我可以执行哪些基本分析来解决数据泄漏问题。
- 如何利用模型元数据更好地了解模型性能?
- 为了全面完成这项任务,我还应该知道哪些其他重要问题?