大数据究竟是什么?

机器算法验证 大数据
2022-01-23 11:50:54

我曾多次被问到这个问题:

什么是大数据?

学生和我的亲戚都热衷于统计和机器学习。

我找到了这个CV-post我觉得我同意那里唯一的答案。

维基百科页面也有一些评论,但我不确定我是否真的同意那里的一切。

编辑:( 我觉得维基百科页面缺乏解释解决这个问题的方法和我在下面提到的范式)

我最近参加了Emmanuel Candès的演讲,他在演讲中介绍了大数据范式作为

先收集数据稍后提问

这是与假设驱动研究的主要区别,在假设驱动研究中,您首先制定一个假设,然后收集数据来说明它。

他深入研究了量化数据窥探产生的假设的可靠性问题。我从他的演讲中得到的主要内容是,我们确实需要开始控制FDR,他提出了仿制方法来做到这一点。

我认为 CV 应该对什么是大数据以及您对它的定义有疑问。我觉得有这么多不同的“定义”,如果对它的组成没有普遍共识,很难真正理解它是什么,或者向别人解释它。

我觉得 Candès 提供的“定义/范式/描述”是最接近我同意的东西,你的想法是什么?

EDIT2:我觉得答案应该提供的不仅仅是对数据本身的解释。它应该是数据/方法/范式的组合。

EDIT3:我觉得这次对迈克尔乔丹的采访也可以增加一些东西。

EDIT4:我决定选择投票最高的答案作为正确答案。尽管我认为所有答案都为讨论增添了一些东西,但我个人认为这更多是关于我们如何生成假设和处理数据的范式问题。我希望这个问题能为那些寻找什么是大数据的人提供参考。我希望维基百科页面将被更改,以进一步强调多重比较问题和 FDR 的控制。

4个回答

我有幸参加了 RStudio 出名的 Hadley Wickham 博士的讲座。他是这样定义的

  • 大数据:无法容纳在一台计算机上的内存中:> 1 TB
  • 中等数据:适合服务器上的内存:10 GB - 1 TB
  • 小数据:适合笔记本电脑的内存:< 10 GB

哈德利还认为,大多数数据至少可以简化为可管理的问题,而极少数实际上是真正的大数据。他将此称为“大数据海市蜃楼”。

  • 90% 可以通过子集/采样/汇总简化为中小型数据问题
  • 9% 可以减少到非常多的小数据问题
  • 1% 是不可约的大

幻灯片可以在这里找到。

如果数据集/流满足所有四个 V,则称为大数据

  • 体积
  • 速度
  • 真实性
  • 种类

除非不满足,否则数据集不能称为大数据。

我的一个类似的答案,供参考。


话虽如此,作为一名数据科学家;我发现 Map-Reduce 框架非常好。拆分数据,对其进行映射,然后将映射器步骤的结果简化为单个结果。我发现这个框架真的很吸引人,以及它如何使数据世界受益。

以下是我在日常工作中处理数据问题的一些方法:

  1. 列式数据库:这对数据科学家来说是一个福音。我使用Aws Red Shift作为我的列式数据存储。它有助于执行复杂的 SQL 查询并减少痛苦。我觉得它真的很好,尤其是当我的增长团队提出一些非常复杂的问题时,我不需要说“是的,运行查询;我们会在一天内得到它!”
  2. Spark 和 Map Reduce 框架:原因在上面已经解释过了。

这就是数据实验的执行方式:

  • 确定要回答的问题
  • 现在列出了可能的数据源。
  • 管道旨在将数据从本地数据库导入 Redshift。是的,Spark 来了。在数据库 --> S3 --> Redshift 数据移动期间,它真的很方便。
  • 然后,对 Redshift 中的数据进行查询和 SQL 分析。

是的,有超级日志等大数据算法;但我还没有发现需要使用它们。

所以,是的。在生成假设之前首先收集数据。

我认为大数据唯一有用的定义是对特定现象的所有信息进行分类的数据。我的意思是,大数据不是从一些感兴趣的人群中抽样并收集这些单位的一些测量值,而是收集整个感兴趣人群的测量值。假设您对 Am​​azon.com 客户感兴趣。Amazon.com 收集所有客户购买的信息是完全可行的,而不是只跟踪一些用户或只跟踪一些交易。

在我看来,取决于数据本身的内存大小的定义在某种程度上是有限的。按照这个标准,给定足够大的计算机,没有数据实际上是大数据。在无限大的计算机的极端情况下,这个论点可能看起来很简单,但考虑一下将我的消费级笔记本电脑与 Google 的服务器进行比较的情况。显然,我在尝试筛选 TB 的数据时会遇到巨大的后勤问题,但 Google 有足够的资源来轻松完成这项任务。更重要的是,您的计算机大小并不是数据的固有属性,因此纯粹参考您手头的任何技术来定义数据有点像根据您的手臂长度来测量距离。

这个论点不仅仅是一种形式主义。一旦你有足够的计算能力,对复杂的并行化方案和分布式计算平台的需求就会消失。因此,如果我们接受大数据太大而无法放入 RAM 的定义(或者 Excel 崩溃等),那么在我们升级机器之后,大数据就不复存在了。这似乎很愚蠢。

但是让我们看一些关于大数据的数据,我称之为“大元数据”。这篇博文观察到一个重要趋势:可用 RAM 的增长速度超过了数据大小,并挑衅地声称“大 RAM 正在吞噬大数据”——也就是说,有了足够的基础设施,你就不再有大数据问题,你只需有了数据,你又回到了传统分析方法的领域。

此外,不同的表示方法将具有不同的大小,因此并不清楚根据其内存大小定义“大数据”意味着什么。如果您的数据是以存储大量冗余信息的方式构建的(也就是说,您选择了低效的编码),您可以轻松地跨越计算机可以轻松处理的阈值。但是你为什么要一个定义有这个属性呢?在我看来,数据集是否是“大数据”不应该取决于你是否在研究设计中做出了有效的选择。

从从业者的角度来看,我定义的大数据也带有计算要求,但这些要求是特定于应用程序的。通过数据库设计(软件、硬件、组织)思考104观察结果与107观察,这完全没问题。这也意味着,正如我所定义的,大数据可能不需要超出我们在经典统计中开发的专业技术:当您需要外推时,样本和置信区间仍然是非常有用且有效的推理工具。线性模型可以为某些问题提供完全可接受的答案。但我定义的大数据可能需要新技术。在预测变量多于训练数据的情况下,或者预测变量随数据大小增长的情况下,您可能需要对新数据进行分类。这些问题将需要更新的技术。


顺便说一句,我认为这个问题很重要,因为它隐含地涉及为什么定义很重要——也就是说,你为谁定义了这个主题。一年级学生关于加法的讨论不是从集合论开始的,而是从计算物理对象开始的。根据我的经验,“大数据”一词的大部分用法出现在大众媒体或非统计学或机器学习专家之间的交流中(例如,征求专业分析的营销材料),并且它习惯于表达现代计算实践意味着有大量可用信息可以利用的想法。这几乎总是在数据揭示消费者信息的背景下,即使不是私人的,也不是立即显而易见的。

因此,围绕“大数据”的普遍用法的内涵和分析也带有这样的思想,即数据可以揭示一个人生活中晦涩、隐藏甚至私密的细节,只要应用足够的推理方法。当媒体报道大数据时,这种匿名性的恶化通常是他们所推动的——从这个角度来看,定义什么是“大数据”似乎有些误导,因为大众媒体和非专业人士并不关心随机的优点。森林和支持向量机等,也没有意识到不同尺度数据分析的挑战。这很好。从他们的角度来看,关注点集中在信息时代的社会、政治和法律后果上。对媒体或非专业人士的准确定义并不是很有用,因为他们的理解也不准确。(不要以为我沾沾自喜——我只是观察到不是每个人都能成为所有方面的专家。)

在此处输入图像描述

交叉检查有关大数据的大量文献,我收集了多达 14 个“V”术语,其中 13 个沿着大约 11 个维度:

  • 有效性,
  • 价值,
  • 变异性/方差,
  • 种类,
  • 速度,
  • 真实性/真实性,
  • 可行性,
  • 虚拟性,
  • 可视化,
  • 挥发性,
  • 体积。

第十四项是虚无。根据最近一篇具有煽动性的帖子,大数据不存在其要点是:

  • “大数据”并不大
  • 大多数“大数据”实际上并没有用
  • [我们应该]充分利用小数据

大数据的正确定义将随着硬件、软件、需求和知识的发展而发展,并且可能不应该依赖于固定的大小。因此,大数据中可抓住的定义:创新、竞争和生产力的下一个前沿, 2011 年 6 月:

“大数据”是指规模超出典型数据库软件工具捕获、存储、管理和分析能力的数据集。