架构问题

数据挖掘 机器学习 预测建模 多标签分类
2022-03-14 14:48:18

我有一种情况,我需要提出一个解决方案以及需要用于以下业务案例的技术堆栈

商业案例:我收到来自不同汽车制造公司的汽车制造数据集,每种汽车型号的数据集不同,属性数量也不同,但我确实每 2 分钟在 csv 文件中收到它们。我需要选择一种特定的存储格式,以便每个车型都可以轻松查询,并且根据车型,我选择,我应该能够显示该车型的不同特征。对于这种类型的数据分析,是否有推荐的架构?

2个回答

鉴于您收到的数据模型不同,您最好使用像 mongodb 这样的 NoSql 存储。

这是我将使用的技术堆栈(python):

  1. 要接收带有 csv 文件的请求,我会使用flask microweb 框架。
  2. 我会用 gunicorn 和 gevent 运行烧瓶。
  3. 对于收到的每个 csv 文件,我会根据不同的列解析行并将它们存储在 mongodb 中。
  4. 我会在 mongodb 中对集合编写查询以提取信息。

如果需要,我将非常乐意详细说明。

AWS 云解决方案步骤-

  1. 将这些文件转储到 S3
  2. 根据需要启动 lambda 函数(无服务器)用于预处理数据
  3. 将此数据存储到 Redshift。您可以创建通用模式来存储汽车详细信息。