金融服务是大数据的大用户,也是创新者。一个例子是抵押债券交易。要回答您的问题:
这些公司使用了什么样的数据。数据的大小是多少?
- 过去多年发行的每笔抵押贷款的悠久历史,并按月支付。(数十亿行)
- 信用记录历史悠久。(数十亿行)
- 房价指数。(没那么大)
他们使用什么样的工具技术来处理数据?
它因人而异。有些使用基于 Netezza 或 Teradata 等数据库构建的内部解决方案。其他人通过数据提供者提供的系统访问数据。(Corelogic、Experian 等)一些银行使用 KDB 或 1010data 等列式数据库技术。
他们面临的问题是什么,以及他们获得数据的洞察力如何帮助他们解决问题。
关键问题是确定抵押债券(抵押支持证券)何时提前偿还或违约。这对于缺乏政府担保的债券尤其重要。通过深入了解付款历史、信用档案并了解房屋的当前价值,可以预测违约的可能性。添加利率模型和提前还款模型也有助于预测提前还款的可能性。
他们如何选择工具\技术来满足他们的需求。
如果项目由内部 IT 驱动,通常它基于大型数据库供应商,如 Oracle、Teradata 或 Netezza。如果它是由 quant 驱动的,那么他们更有可能直接去找数据供应商,或者第三方“All in”系统。
他们从数据中识别出什么样的模式以及他们从数据中寻找什么样的模式。
链接数据可以很好地了解谁可能拖欠贷款并提前还款。当您将贷款汇总为债券时,它可能是发行的债券之间的差额100 , 000 , 000 _ _ _ _ _w o r t h t h a t a m o u n t _ _ _ _ _ _ _ _ _ _ _ _ _20,000,000。