数据挖掘和统计分析有什么区别?
在某些背景下,我认为我的统计教育是相当传统的。提出一个特定的问题,设计研究,收集和分析数据以提供对该问题的一些见解。因此,我一直对我认为的“数据挖掘”持怀疑态度,即在大型数据集中寻找模式并使用这些模式得出结论。我倾向于将后者与数据挖掘联系起来,并且一直认为这有点无原则(以及算法变量选择例程之类的东西)。
尽管如此,关于数据挖掘的文献数量庞大且不断增长。通常,我看到这个标签指的是特定技术,如聚类、基于树的分类等。然而,至少从我的角度来看,这些技术可以“松散”在一组数据上,或者以结构化的方式用于解决问题。我称前者为数据挖掘,后者为统计分析。
我从事学术管理工作,并被要求进行一些“数据挖掘”以识别问题和机会。与我的背景一致,我的第一个问题是:您想学习什么以及您认为哪些事情有助于解决问题?从他们的回答中,很明显我和提问的人对数据挖掘的性质和价值有不同的看法。