数据挖掘者是否意识到机器学习无法建立因果关系?

数据挖掘 机器学习 统计数据 实验
2022-03-02 13:43:14

机器学习(或更一般地,数据挖掘)中的人们是否意识到不能从相关性中推断出因果关系?

我对 ML/AI 社区的印象是,大多数参与其中的人都有计算机科学背景。我认为指出这不是学术意义上的科学(想想物理、化学、心理学)是没有争议的。因此,这些人中的大多数都没有接受过科学方法、统计学甚至数学方面的正式培训。

相关性不等于因果性”是第 nr 课。1 在统计。为了建立因果联系,需要进行实验(在一些非常特殊的情况下,可以使用其他技术)。对我来说,这似乎是机器学习的一个根本性和灾难性的限制。ML 可以很好地描述数据(并对其进行分类),但它永远不会替代实验。因此,机器学习的应用范围有限。

我的问题是关于 ML 社区的氛围。

  • 该领域的人是否认识到这种限制?还是人们认为因果推理问题不是根本问题,将来会通过更好的 CPU 和更好的算法来解决?
  • 他们是否将 ML 的使用限制在描述性分析中?还是他们错误地认为 ML 可以帮助我们理解和影响世界?
  • 社区内是否有关于这个话题的激烈辩论?是否有与这些问题相关的文章/博客?
1个回答

我认为您对机器学习在事物顺序中所扮演的角色有点困惑,我发现您对 ML 社区的印象有点奇怪。

首先,ML 专家通常不是使用 ML 算法来解决科学问题的人——这些人现在通常被称为“数据科学家”,原则上他们应该具有某种科学、统计学和/或数学。是的,(好)数据科学家花了很多时间担心因果推理——他们必须这样做,因为有大公司有很多钱靠他们的预测。与您的印象相反,ML 专家通常也意识到这些问题,但他们的工作是构建和分析建模工具,而不是将它们实际应用于真实数据。当然,有很多 ML 和数据科学人员跨越这两个领域的界限,但我的观点是,你的问题有点像问数学家为什么不担心实验错误。

也就是说,许多(大多数?)机器学习算法更倾向于分类问题,这些问题不太容易受到您的关注。您仍然需要担心诸如过度拟合和构建良好的训练/验证数据集之类的粘性统计问题,但重点更多的是了解您拥有的数据的结构,而不是预测未来。