去数据仓库还是不去数据仓库?

数据挖掘 红移
2022-02-13 22:08:53

我想知道你是否会这么好心地帮助我回答一个快速的问题(如果你愿意的话,很乐意解释更多......)。我正在研究并建立一个系统来进行机器学习工作(培训),以找到用户的社交媒体(或可穿戴设备等的其他数字轨迹)信息与他的性格测试分数之间的相关性。

分数在我的 Postgresql(在 AWS 上)中,我需要决定如何存储来自可穿戴设备(非结构化和结构化)信息的社交媒体/数字轨迹。我在想 DynamoDB。

我还考虑将这两个数据库集成到 Amazon Redshift 下并从那里进行分析(使用 RapidMinder)......这一切都有意义吗?我真的需要一个数据仓库吗?在没有数据仓库的情况下只使用一个数据库(Postgresql 或 Dynamo)会更明智吗?我说的是或多或少的多达 100K 条记录(用于训练).... 未来的数据将达到数百万。

我得到了很多相互矛盾的答案,我希望并将感谢您的善意和建议。提前非常感谢你!!!

1个回答

数据仓库的主要目的是能够以快速(接近实时)的方式聚合不同类型的数据和列。存储能力不是数据仓库试图解决的问题。我无法真正回答您的问题,因为我不太清楚您要执行的分析量,但如果它是为了一遍又一遍地训练模型(在线学习),只需建立一个完整的管道来应用转换您想要(ETL 部分)、建模、训练和运行您的预测方法,次数不限。