数据科学家如何测试模型声称的准确性?

数据挖掘 机器学习 数据 准确性
2022-02-15 00:25:54

例如,如果您是一家公司的数据科学家,而销售人员为您提供了一个预训练模型,据称该模型在检测欺诈交易方面具有 90% 的准确率。您将如何验证此声明?

我会在我拥有的数据上对其进行测试,看看acc 是什么。用于检测我的数据集中的欺诈行为,并使用样本 acc. 进行 t 检验,以查看它是否足够接近 90% 以判断它是否会检测到整个人口中 90% 的欺诈行为。

让我知道这是否是思考这个问题的正确方法。

谢谢

1个回答

已经存在欺诈交易的历史数据集(例如:如果我们以信用卡为例,所有有争议和争议的交易都被接受)。

销售团队将包括售前开发人员,他们可以帮助通过模型运行此类数据的子集(在 NDA 等各种文书工作之后,法律审查是否可以将性别/种族等特定属性用于此目的)。这通常需要:

  1. 从源系统或仓库或数据湖中提取数据
  2. 为模型的输入/输出格式转换数据
  3. 由处理此类交易的运营团队进行的定量 + 主观验证

获得 90% 的准确率非常简单。由于大多数交易都不是欺诈性的,任何预测所有交易都是真实的模型都将满足这个标准。

因此,第 3 步(验证)将包括就模型验证的适当措施达成一致(例如 F1 分数)