数据挖掘和统计分析有什么区别?

机器算法验证 数据挖掘 术语 分析
2022-02-13 00:51:34

数据挖掘和统计分析有什么区别?

在某些背景下,我认为我的统计教育是相当传统的。提出一个特定的问题,设计研究,收集和分析数据以提供对该问题的一些见解。因此,我一直对我认为的“数据挖掘”持怀疑态度,即在大型数据集中寻找模式并使用这些模式得出结论。我倾向于将后者与数据挖掘联系起来,并且一直认为这有点无原则(以及算法变量选择例程之类的东西)。

尽管如此,关于数据挖掘的文献数量庞大且不断增长。通常,我看到这个标签指的是特定技术,如聚类、基于树的分类等。然而,至少从我的角度来看,这些技术可以“松散”在一组数据上,或者以结构化的方式用于解决问题。我称前者为数据挖掘,后者为统计分析。

我从事学术管理工作,并被要求进行一些“数据挖掘”以识别问题和机会。与我的背景一致,我的第一个问题是:您想学习什么以及您认为哪些事情有助于解决问题?从他们的回答中,很明显我和提问的人对数据挖掘的性质和价值有不同的看法。

4个回答

杰罗姆弗里德曼不久前写了一篇论文:数据挖掘和统计:有什么联系?,我想你会觉得很有趣。

数据挖掘在很大程度上是一个商业问题,由业务需求驱动(加上供应商向企业销售软件和硬件系统的“需求”)。弗里德曼指出的一件事是,所有被大肆宣传的“特征”都源于统计之外——从神经网络等算法和方法到 GUI 驱动的数据分析——而传统的统计产品似乎都不是这些系统的一部分(回归、假设检验等)。“我们的核心方法在很大程度上被忽视了。” 它也按照您所说的以用户驱动的方式出售:这是我的数据,这是我的“业务问题”,给我一个答案。

我认为弗里德曼试图挑衅。他不认为数据挖掘在方法论方面具有重要的知识基础,但这种情况会改变,统计学家应该发挥作用而不是忽视它。

我自己的印象是,这或多或少发生了。线条已经模糊。统计学家现在在数据挖掘期刊上发表文章。如今,数据挖掘者似乎接受了某种统计培训。虽然数据挖掘包仍然没有大肆宣传广义线性模型,但逻辑回归在分析师中是众所周知的——除了聚类和神经网络。最佳实验设计可能不是数据挖掘核心的一部分,但可以哄骗软件吐出 p 值。进步!

统计学和数据挖掘之间的区别很大程度上是历史性的,因为它们来自不同的传统:统计学和计算机科学。数据挖掘在人工智能和统计领域的工作中并行发展。

Witten & Frank的第 1.4 节总结了我的观点,所以我将详细引用它:

机器学习和统计有什么区别?愤世嫉俗者讽刺地看待这一领域的商业兴趣(和炒作)的爆炸式增长,将数据挖掘等同于统计加营销。事实上,您不应该在机器学习和统计学之间寻找分界线,因为数据分析技术是一个连续统一体,并且是一个多维统一体。有些来自标准统计课程中教授的技能,而另一些则与计算机科学产生的机器学习密切相关。从历史上看,两国有着截然不同的传统。如果被迫指出强调的单一差异,可能是统计数据更关注检验假设,

过去,非常相似的方法在机器学习和统计中并行发展......

但现在这两种观点已经融合。

NB1 IMO、数据挖掘和机器学习是密切相关的术语。从某种意义上说,机器学习技术用于数据挖掘。我经常认为这些术语可以互换,只要它们不同,它们通常会一起出现。我建议查看“两种文化”论文以及我最初问题中的其他线程。

NB2 术语“数据挖掘”在通俗地使用时可能具有负面含义,表示在没有任何概念理解的情况下让某些算法在数据上松散。感觉是数据挖掘会导致虚假结果和过度拟合。因此,我通常在与非专家交谈时避免使用该术语,而是使用机器学习或统计学习作为同义词。

数据挖掘分为描述性或预测性。描述性数据挖掘是搜索海量数据集,发现数据中意想不到的结构或关系、模式、趋势、集群和异常值的位置。另一方面,Predictive 是为回归、分类、模式识别或机器学习任务构建模型和程序,并在应用于新数据时评估这些模型和程序的预测准确性。

用于在高维数据中搜索模式或结构的机制可能是手动的,也可能是自动的;搜索可能需要交互式查询数据库管理系统,或者可能需要使用可视化软件来发现数据中的异常。在机器学习术语中,描述性数据挖掘被称为无监督学习,而预测数据挖掘被称为监督学习。

数据挖掘中使用的大多数方法都与统计和机器学习中开发的方法有关。这些方法中最重要的是回归、分类、聚类和可视化等一般主题。由于数据集的巨大规模,数据挖掘的许多应用集中在降维技术(例如,变量选择)和高维数据被怀疑位于低维超平面上的情况。最近的注意力集中在识别位于非线性表面或流形上的高维数据的方法。

在数据挖掘中也存在统计推断(在其经典意义上)没有意义或有效性可疑的情况:前者发生在我们让整个人群都在寻找答案时,而后者发生在数据集是“方便”的样本,而不是从大量人口中抽取的随机样本。当通过时间收集数据时(例如,零售交易、股票市场交易、患者记录、天气记录),抽样也可能没有意义;观察的时间顺序对于理解产生数据的现象至关重要,并且当观察可能高度相关时将观察视为独立将提供有偏差的结果。

除了统计理论和方法之外,数据挖掘的核心组成部分是计算和计算效率、自动数据处理、动态和交互式数据可视化技术以及算法开发。

数据挖掘中最重要的问题之一是可伸缩性的计算问题。为计算标准探索性和验证性统计方法而开发的算法被设计为在应用于中小型数据集时快速且计算效率高;然而,事实证明,这些算法中的大多数都无法应对处理庞大数据集的挑战。随着数据集的增长,许多现有算法表现出显着放缓(甚至停止)的趋势。

数据挖掘是统计学,有一些细微的差别。您可以将其视为重新命名统计数据,因为统计学家有点奇怪。

它通常与计算统计相关,即只有您可以用计算机做的事情。

数据挖掘者窃取了很大一部分多元统计数据并将其称为自己的数据。检查任何 1990 年代多变量书籍的目录,并将其与新的数据挖掘书籍进行比较。非常相似。

统计与检验假设和模型构建相关,而数据挖掘与预测和分类更相关,无论是否存在可理解的模型。