当响应变量有太多的 0 和很少的连续值时建模?

数据挖掘 分类 回归 预测建模 阶级失衡
2022-02-17 20:19:59

对于数据代表在线欺诈或保险(其中每一行代表一笔交易)的问题,响应变量通常以美元表示欺诈的价值。这样的响应值可能有不到 5% 的非零值表示欺诈交易。

关于这样的数据集,我有两个问题:

  1. 我们可以使用什么算法来确保模型不仅准确地预测欺诈交易,而且预测与这些相关的欺诈价值。
  2. 假设我们可以量化每个误报所涉及的成本(将非欺诈交易标记为欺诈)和因误报而产生的成本(将欺诈交易标记为非欺诈),我们如何优化模型以最大限度地节省成本(或尽量减少损失)?
1个回答

怎么样

  1. 普通最小二乘 (OLS) 回归?由于您存在类别不平衡,您可能希望将其与提升算法结合使用。
  2. 如果您有量化 FP 和 FN 所涉及的成本的功能,请使用您能找到的任何优化技术。我最喜欢的是遗传算法。您也可以尝试线性规划。