哪个是第一位的 - 领域专业知识或实验方法?

机器算法验证 机器学习 假设检验 神经网络 分类
2022-01-18 04:37:07

在我的组织中,我们正在着手一项 AI 计划,我们尝试识别业务用例并使用传统的ML算法解决它们。

然而,我们的业务用户说,在他们参与头脑风暴、选择和缩减特征空间之前,他们要求数据人员进行详细的扫描和实验,并通过实验...

示例:假设我的数据有 200 个特征和 30K 行。我们的业务团队表示,他们将无法指导要查看的最相关功能是什么,因为他们认为这可能会使结果产生偏差。因此,他们希望数据人员通过实验找到重要的特征。

之后,拿这些特性去业务团队检查它的相关性。基本上,在他们对算法输出的内容(对于对目标变量有影响的相关特征)有一定信心之前,没有领域专家的输入。

这是它在现实世界的 AI 项目中通常的工作方式吗?这是开始 AI 项目的更好方法吗?有什么我们应该注意的吗?

4个回答

由于基于意见,这可能会很快关闭,但这是您可能需要考虑的一点。

200 个功能很多,30k 行比听起来要少。寻找相关特征的“钓鱼探险”很可能会过度拟合并选择虚假特征危险在于,当您使用您“发现”相关的这些功能去找您的领域专家时,他们可能不会退缩。相反,开始讲述这些功能如何真正有用的故事是人类非常普遍的反应,因为我们人类非常擅长解释东西,甚至是简单的噪音。

首先与您的领域专家交谈并不能完全避免这个问题,但它可能会减少追逐野鹅的次数。

您可能对我对“如何知道您的机器学习问题毫无希望?”的回答感兴趣。.

John Elder 在 2005 年做了一个(现在是经典的)演讲,名为:“ Top 10 Data Mining Mistakes ”。该列表中的第 4 项是:(仅)收听数据。

特别是对于几乎可以肯定我们使用不完整的信息(例如客户优先事项、财务和物质资源、法律框架等)采取行动的商业环境,这些信息会影响我们的利益,忽略先验知识可能是非常有害的。充其量我们会重复工作和/或产生微不足道的结果;在最坏的情况下,我们会得到荒谬的“数据驱动”发现。正如特威曼定律所说,完全看空这一点:“任何看起来有趣或不同的数字通常都是错误的”。

针对您的问题的一些要点:

  1. “通过实验找到重要特征”将需要完整的实验设计。如果他们愿意为此投入时间和金钱,那就去做吧。还要熟悉“观察数据分析”(是的,阅读调查分析是“不合适的”,但将有偏见的样本视为随机样本是灾难性的。)
  2. 这是分析项目生命中的一个好点,可以考虑将贝叶斯推理的应用作为形式化建模假设的一种方式。简而言之,如果我们有 200 个特征,那么其中一些特征必须比其他特征更可能影响我们的结果;使用先验来封装它。
  3. 尊重您所操作环境的物理特性(直到您也没有)。信号强度随着距离的增加而减弱;卢森堡的普通客户的可支配收入比保加利亚的客户多。使用公认的假设作为分析的先验/起点;明智地更新。
  4. 阅读文献。真的,这不仅仅是一个学术活动。如果我们进行正式搜索,我们通常可以通过精选资源获得合理的答案。同样,如果没有可用的东西,这更有理由更详细地重新审视第 1 点和第 2 点。

回顾一下:绝对与领域专家交谈(或努力成为一个崭露头角的人)。它可以为你拯救一个痛苦的世界;如果下游有任何事情,您将对如何展示您的发现以及通常的争论点有更好的了解。

您正在处理的问题是变量选择问题,因此适用标准原则和方法。特别是,如果您有大量初始变量/特征可供选择,如果您未能采用适当的方法来解释多重比较,则存在过度拟合的危险。如果您从主题专家那里获得有关变量的外生信息来源,则可以将其用作先验信息来指导您的选择方法——例如,缩小您将进行的模型/比较。

你对向你提出的建议有严重的疑虑是正确的。首先使用统计方法找到相关特征,然后将这些信息提供给业务团队以告知他们的反馈的想法在我看来是一个糟糕的想法。通过这样做,您可以采用先验外生信息的潜在形式,并通过首先输入统计结果来严重偏向它。肯定偏见业务团队的反馈,因此他们之后给您的任何信息都可能被污染和无用。如果您随后缩小模型/拟合的范围以专注于他们“确认”的特征/变量,这将有效地过度加权原始模型拟合中的数据(因为它们在很大程度上只是将后验结果作为先验信息反馈)并且您几乎肯定会过度拟合您的模型。我建议阅读Gelman 和 Loken(2013 年)关于在进行研究/建模选择时出现的“分叉路径花园”。

这里有因果推理和可解释性两个方面。

因果推理的角度来看,领域专业知识应该指导在给定目的、目标上构建相关因素的过程,这些因素是真正相关的,而不仅仅是数据科学家探索或发现的相关性。Inference and Intervention: Causal Models for Business,Ryall-Bramson (2013),routledge提供了一组关于领域知识如何指导建立因果模型的案例研究。

在纯粹的机器学习项目中,底线是模型的性能。所谓的特征发现和提取通常是在没有领域专家输入的情况下执行的,而性能最好的模型是由数据科学家生成的。参与这种方法的领域专家似乎是为了确保在机器学习模型中设定正确的业务目标。如果它是受监管的环境或存在需求,那么机器学习模型的可解释性工作可能需要领域专家的干预,请参阅可解释的机器学习