大数据案例研究或用例示例

数据挖掘 数据挖掘 大数据 用例
2021-10-07 02:03:32

我已经阅读了很多关于不同类型行业如何使用大数据分析的博客\文章。但是这些文章中的大多数都没有提到

  1. 这些公司使用了什么样的数据。数据的大小是多少
  2. 他们使用什么样的工具技术来处理数据
  3. 他们面临的问题是什么,以及他们获得数据的洞察力如何帮助他们解决问题。
  4. 他们如何选择工具\技术来满足他们的需求。
  5. 他们从数据中识别出什么样的模式以及他们从数据中寻找什么样的模式。

我想知道是否有人可以为我提供所有这些问题的答案或至少回答一些问题的链接。我正在寻找现实世界的例子。

如果有人分享金融业如何利用大数据分析,那就太好了。

4个回答

新闻媒体倾向于非常松散地使用“大数据”。供应商通常会提供围绕其特定产品的案例研究。开源实现的内容并不多,但确实会被提及。例如,Apache 不会花费大量时间构建有关 hadoop 的案例研究,但 Cloudera 和 Hortonworks 等供应商可能会。

这是Cloudera在金融领域的一个示例案例研究。

引用研究:

一家主要的全球金融服务集团使用 Cloudera 和 Datameer 来帮助识别流氓交易活动。公司资产管理组内的团队正在对每日的价格、头寸和订单信息进行临时分析。通过对所有详细数据进行临时分析,该小组可以检测某些资产类别的异常情况并识别可疑行为。用户以前只依赖桌面电子表格工具。现在,借助 Datameer 和 Cloudera,用户拥有了一个强大的平台,使他们能够更快地筛选更多数据,并在开始之前避免潜在的损失。

.

一家领先的零售银行正在使用 Cloudera 和 Datameer 来验证《多德-弗兰克法案》和其他法规要求的数据准确性和质量。银行的数据质量计划整合了贷款和分行数据以及财富管理数据,负责确保每条记录都是准确的。该过程包括对数据进行 50 多次数据完整性和质量检查。这些检查的结果随着时间的推移呈趋势,以确保对数据损坏和数据域的容忍度不会发生不利变化,并且向投资者和监管机构报告的风险概况是谨慎的并符合监管要求。结果通过数据质量仪表板报告给首席风险官和首席财务官,

我没有在 Cloudera 看到任何其他与金融相关的研究,但我并没有很努力地搜索。你可以在这里查看他们的图书馆

此外,Hortonworks 有一个关于交易策略的案例研究,他们发现利用 K-means、Hadoop 和 R 制定策略所需的时间减少了 20%。

每种颜色表示一组具有相似盈利和亏损概率的策略

如何使用 Hadoop(Hortonworks 数据平台)和 k-means 算法改进交易系统

这些并不能回答你所有的问题。我很确定这两项研究都涵盖了其中的大部分。我没有看到任何关于工具选择的具体内容。我想销售代表与将整体产品推向市场有很大关系,但数据科学家自己利用了他们最熟悉的工具。我对大数据领域的那个领域没有太多的了解。

金融服务是大数据的大用户,也是创新者。一个例子是抵押债券交易。要回答您的问题:

这些公司使用了什么样的数据。数据的大小是多少?

  • 过去多年发行的每笔抵押贷款的悠久历史,并按月支付。(数十亿行)
  • 信用记录历史悠久。(数十亿行)
  • 房价指数。(没那么大)

他们使用什么样的工具技术来处理数据?

它因人而异。有些使用基于 Netezza 或 Teradata 等数据库构建的内部解决方案。其他人通过数据提供者提供的系统访问数据。(Corelogic、Experian 等)一些银行使用 KDB 或 1010data 等列式数据库技术。

他们面临的问题是什么,以及他们获得数据的洞察力如何帮助他们解决问题。

关键问题是确定抵押债券(抵押支持证券)何时提前偿还或违约。这对于缺乏政府担保的债券尤其重要。通过深入了解付款历史、信用档案并了解房屋的当前价值,可以预测违约的可能性。添加利率模型和提前还款模型也有助于预测提前还款的可能性。

他们如何选择工具\技术来满足他们的需求。

如果项目由内部 IT 驱动,通常它基于大型数据库供应商,如 Oracle、Teradata 或 Netezza。如果它是由 quant 驱动的,那么他们更有可能直接去找数据供应商,或者第三方“All in”系统。

他们从数据中识别出什么样的模式以及他们从数据中寻找什么样的模式。

链接数据可以很好地了解谁可能拖欠贷款并提前还款。当您将贷款汇总为债券时,它可能是发行的债券之间的差额100,000,000beingworththatamount,oraslittleas20,000,000。

  • Kaggle有一个简短的应用总结

  • Revolution Analytics发布了许多一般案例研究、数据表和白皮书

  • 对于科学和工程中的应用,您可以参考Nutonian案例研究

  • Analyx向潜在客户介绍商业应用

  • 英国《金融时报》发表了关于大数据商业应用的故事集

  • 麦肯锡早在 2011 年就概述了应用程序

其他咨询公司也做了类似的报告。

Gartner为大数据创建了炒作周期:

在此处输入图像描述

更不用说其他想要推广其产品的公司的案例研究和白皮书了。

查看O'Reilly 免费数据报告您可以找到有关银行和金融科技、体育、时尚、音乐、健康、石油和天然气等方面的报告。

请记住,前面提到的麦肯锡报告是经典报告,必须阅读。