我确信将在本论坛中讨论的数据科学有几个同义词,或者至少是分析大数据的相关领域。
我的特别问题是关于数据挖掘的。几年前,我参加了数据挖掘的研究生课程。数据科学和数据挖掘之间有什么区别,特别是我还需要看什么才能精通数据挖掘?
我确信将在本论坛中讨论的数据科学有几个同义词,或者至少是分析大数据的相关领域。
我的特别问题是关于数据挖掘的。几年前,我参加了数据挖掘的研究生课程。数据科学和数据挖掘之间有什么区别,特别是我还需要看什么才能精通数据挖掘?
@statsRus开始为您在另一个问题中的回答奠定基础数据科学和统计学之间的区别是什么?:
- 数据收集:网络抓取和在线调查
- 数据操作:重新编码杂乱的数据并从语言和社交网络数据中提取意义
- 数据规模:处理超大数据集
- 数据挖掘:在大型复杂数据集中寻找模式,重点是算法技术
- 数据通信:通过可视化帮助将“机器可读”的数据转化为“人类可读”的信息
数据挖掘可以看作是数据科学家工具包中的一个项目(或一组技能和应用程序)。我喜欢他用一种特定于贸易的行话将采矿的定义与收集区分开来。
但是,我认为数据挖掘与美英口语定义中的数据收集是同义词。
至于去哪里精通? 我认为这个问题目前陈述的范围太广,并且会收到主要基于意见的答案。也许如果你可以改进你的问题,可能会更容易看到你在问什么。
@Clayton 发布的内容对我来说似乎是正确的,因为这些术语,以及“数据挖掘”是数据科学家的一种工具。然而,我并没有真正使用过“数据收集”这个词,而且我并不觉得它是“数据挖掘”的同义词。
我自己对您的问题的回答:不,条款不一样。这个领域的定义可能很松散,但我没有看到这些术语可以互换使用。在我的工作中,我们有时会使用它们来区分目标或方法。为了我们,数据科学更多的是关于检验一个假设,通常收集数据只是为了这个目的。数据挖掘更多的是筛选现有数据,寻找结构,并可能产生假设。数据挖掘可以从一个假设开始,但它通常很弱或很笼统,并且很难自信地解决。(挖掘足够长的时间,你会发现一些东西,尽管它可能会变成黄铁矿。)
但是,我们也将“数据科学”用作更广泛的术语,包括“数据挖掘”。我们还讨论了“数据建模”,对我们而言,它是关于根据数据以及其他知识和目标为感兴趣的系统找到模型。有时这意味着试图找到解释真实系统的数学,有时意味着找到一个足够好的预测模型来达到某个目的。
我的回答是否定的。我认为数据挖掘是数据科学中的杂项领域之一。数据挖掘主要用于产生问题而不是回答问题。与数据科学相比,它通常被称为“检测新事物”,在数据科学中,数据科学家试图解决复杂问题以达到最终结果。然而,这两个术语之间有许多共同点。例如..如果您有一块农田,您的目标是找到受影响的植物..这里空间数据挖掘在完成这项工作中起着关键作用。很有可能您最终不仅会找到受影响的植物在土地上,还有他们受到影响的程度……这是数据科学不可能做到的。
数据挖掘和数据科学之间有许多重叠之处。我想说,从事数据挖掘的人关心数据收集和从未经过滤、无组织且主要是原始/野生数据集中提取特征。一些非常重要的数据可能难以提取,这与实施问题无关,而是因为它可能有外来工件。
例如。如果我需要有人查看 70 年代书面纳税申报表中的财务数据,这些数据经过扫描和机器阅读,以了解人们是否在汽车保险上节省了更多;一个数据挖掘者将是得到的人。
如果我需要有人检查耐克的 Twitter 个人资料在巴西推文中的影响力,并从个人资料中找出关键的积极特征,我会寻找数据科学家。