对于数据代表在线欺诈或保险(其中每一行代表一笔交易)的问题,响应变量通常以美元表示欺诈的价值。这样的响应值可能有不到 5% 的非零值表示欺诈交易。
关于这样的数据集,我有两个问题:
- 我们可以使用什么算法来确保模型不仅准确地预测欺诈交易,而且预测与这些相关的欺诈价值。
- 假设我们可以量化每个误报所涉及的成本(将非欺诈交易标记为欺诈)和因误报而产生的成本(将欺诈交易标记为非欺诈),我们如何优化模型以最大限度地节省成本(或尽量减少损失)?
对于数据代表在线欺诈或保险(其中每一行代表一笔交易)的问题,响应变量通常以美元表示欺诈的价值。这样的响应值可能有不到 5% 的非零值表示欺诈交易。
关于这样的数据集,我有两个问题:
怎么样