我正在研究一个机器学习项目,其中的数据已经(严重)受到数据选择的影响。
假设您有一组硬编码规则。当它可以使用的所有数据都是已经被这些规则过滤的数据时,你如何构建一个机器学习模型来替换它?
为了清楚起见,我想最好的例子是信用风险评估:任务是过滤所有可能无法付款的客户。
- 现在,您拥有的唯一(标记)数据来自已被规则集接受的客户,因为只有在接受之后,您才会(显然)看到是否有人付款。你不知道这组规则有多好,以及它们会在多大程度上影响付费到未付费的分配。此外,您还有来自被拒绝的客户的未标记数据,这也是由于规则集。所以你不知道如果这些客户被接受了会发生什么。
例如,其中一条规则可能是:“如果客户年龄 < 18 岁,则不接受”
分类器无法学习如何处理已被这些规则过滤的客户端。分类器应该如何在这里学习模式?
忽略这个问题,会导致模型暴露在它以前从未遇到过的数据中。基本上,我想在这里估计 x 在 [a, b] 之外时 f(x) 的值。