我的用例中是否需要数据湖?

数据挖掘 数据
2022-02-15 12:38:59

我的 Web 应用程序存储使用数据,例如:

  • 门票 开启 关闭
  • 执行的任务
  • 用户评分

等等。我需要显示使用和性能趋势的仪表板和报告,例如:

  • 一个时期内开/关了多少张票?
  • 平均任务执行时间是多少?
  • 谁是最活跃的用户?
  • 哪个用户得分最高?

等问题是开放的,我们可以发明更多。

这种情况是否属于数据仓库经典方法?数据来自具有特定数据模型的关系数据库。

有人要我创建一个数据湖,只给他我所有的原始数据。我不明白数据湖如何适合这张照片。没有模型和关系,我的数据毫无用处。

此外,我没有事件流:我在关系数据库中有表。例如,“任务”表中的一行将有一个“打开时间”列和一个“关闭时间”列。

我对创建数据湖与传统数据仓库方法的需求或优势感到困惑

1个回答

“数据湖”的重点是将非结构化数据连同相关的元数据一起存储在一个地方。数据通常以记录时的格式存储,即原始格式。然后仅根据需要提取和处理数据以供使用。

有一篇不错的文章以公正且实用的方式比较了数据仓库和数据湖。


从您对数据的描述和您想要解决的问题来看,我个人认为不需要数据湖。

也许您的同事正计划为更大的目的创建一个数据湖,例如为许多项目(例如您的项目)存放数据,这些项目可能也想使用您的数据?在这种情况下,需要考虑安全性、数据所有权和数据管理等问题。要回答的问题是:

  • 谁真正拥有数据?
  • 谁可以使用什么数据?
  • 谁可以查看哪些数据?
  • 谁负责确保数据始终可用?